| ArXiv | https://arxiv.org/abs/2504.16084 |
|---|---|
| Github Code | https://github.com/PRIME-RL/TTRL |
| Authors | Yuxin Zuo, Kaiyan Zhang, Li Sheng, Shang Qu, Ganqu Cui, Xuekai Zhu, Haozhan Li, Yuchen Zhang, Xinwei Long, Ermo Hua, Biqing Qi, Youbang Sun, Zhiyuan Ma, Lifan Yuan, Ning Ding, Bowen Zhou |
| Affiliation | Tsinghua University, Shanghai AI Lab |
Key Differentiator
(1) ๋ค์ํ ๋ต๋ณ์ ์์ฑํ๊ณ (Test-Time Scaling)
(2) majority voting์ ํตํด "์ด ๋ต๋ณ์ good, ์ด๊ฑด bad"๋ผ๋ ํ๊ฐ๋ฅผ ์๋์ผ๋ก ์์ฑ
(3) ์ด๋ฅผ reward๋ก ๋ณํํด RL ์ํ
Test Time์ ์์จ์ , ๋ฐ๋ณต์ , label-free ๋ฐฉ์์ผ๋ก ํ์ตํ๊ณ ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋ ํจ๊ณผ
๋ต์์ง ์์ฃผ๊ณ ๋ฌธ์ ๋ง ์คฌ๋๋ฐ, ์์์ ๋ฐ๋ณต์ ์ผ๋ก ๋ฌธ์ ํ๋ฉด์ ๋๋ํด์ง๋ค!
Why I chose this paper?
- Test-Time ๋ ผ๋ฌธ๋ค์ ๋ง์ด ๋ดค์ง๋ง, Reinforcement Learning์ ์ฒ์ ๋ค์ด๋ด์ ๊ถ๊ธํ๋ค.
- ์์นด์ด๋ธ์๋ง ์๊ณ , ์ต๊ทผ์ ์ ์ถ๋ ๋ ผ๋ฌธ์ธ๋ฐ, github star์ด 700๊ฐ๋ ๋์ด์์ด์ ๊ถ๊ธํ๋ค.
๊ธฐ์กด์ Test-Time Scaling์ด๋ Reinforcement Learning์ ๋จผ์ ์ค๋ช ํ๋๊ฒ ์ข์ ๊ฒ ๊ฐ์์5 Related Works๋ฅผ ๋จผ์ ์ฝ์๋ค.
5 Related Works
5.1 Test-Time Scaling
= LLM์ด ํ ์คํธ(์ถ๋ก ) ์์ ์์ ๋ ๋ง์ ๊ณ์ฐ ์์์ ์ฌ์ฉํด ์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉ๋ฒ
โ ์ฆ, ํ์ต๋ ๋ชจ๋ธ ๊ตฌ์กฐ๋ ๊ทธ๋๋ก ๋๊ณ , test-time์ inference ๋ฐฉ์๋ง ํ์ฅํ๋ ์ ๋ต
โ Parallel Generation
ํ๋์ ์ ๋ ฅ์ ๋ํด ์ฌ๋ฌ ๊ฐ์ output์ ์์ฑํ๊ณ ๊ทธ ์ค โ์ข์ ๊ฒโ์ ์ ํ
- Self-Consistency (Wang et al., 2022)
- ์ฌ๋ฌ CoT ๋ต๋ณ์ ๋ง๋ค๊ณ ๊ฐ์ฅ ๋ง์ ๋น๋๋ฅผ ๊ฐ์ง ๋ต๋ณ์ ์ ํ (majority voting)
- Best-of-N (Stiennon et al., 2020; Nakano et al., 2021)
- reward function์ด๋ score function์ผ๋ก best ๋ต๋ณ ์ ํ
- Reward-guided Search (Deng & Raffel, 2023; Khanov et al., 2024)
- sampling๋ ๊ฒฐ๊ณผ์ external reward function์ ์ ์ฉํด ์ ํ
โ ์ด์ฒ๋ผ parallelํ๊ฒ ์ฌ๋ฌ ๋ต์์ ๋ง๋ค๊ณ ํ๋๋ฅผ โ์ ํโํ๊ฑฐ๋ โaggregationโ ํ๋ ๊ฒ ๊ณตํต
โก Sequential Generation
ํ๋์ ๋ต๋ณ์ ๊ธธ๊ฒ, ์ ์ง์ ์ผ๋ก ํ์ฅํ๊ฑฐ๋ ์์ ํ๋ฉฐ reasoning
- Chain-of-Thought (CoT) prompting (Wei et al., 2022)
- ์ค๊ฐ reasoning step์ ๋ช ์์ ์ผ๋ก ์ ๋
- Reflective reasoning (Madaan et al., 2023)
- ์ค์ค๋ก ๋ต์ ๊ฒํ ํ๊ณ ์์
โ reasoning depth๋ฅผ ๋๋ฆฌ๊ฑฐ๋ self-correction์ ์ ๋
ํ๊ณ: ๋๋ถ๋ถ์ TTS๋ prompt-based์ด๋ฉฐ, ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์์ฒด๋ ์ ๋ฐ์ดํธ๋์ง ์์
| ๊ธฐ์กด TTS | TTRL |
|---|---|
| inference time์๋ง ์ฌ์ฉ | inference + parameter update (TTT) ํฌํจ |
| majority voting๋ง ์ฌ์ฉ | majority voting โ reward๋ก ์ ํํ์ฌ RL ์ํ |
| non-parametric | parametric update ํฌํจ |
5.2 RL for Reasoning
Human Preference ๊ธฐ๋ฐ
- Human ๋๋ annotator๊ฐ ์ฌ๋ฌ ๋ต ์ค ์ ํธ๋๋ฅผ ๋งค๊น
- Preference Model ํ์ต โ reward๋ก ์ฌ์ฉ
- PPO ๋ฑ์ผ๋ก policy (LLM) ์ ๋ฐ์ดํธ
- ๊ฐ์ : ์์ฐ์ธ์ด์ open-ended instruction์๋ ์ ํฉ
- ํ๊ณ: ์ฌ๋์ label์ด ํ์ํ๊ณ , ์์น์ ํ๊ฐ ๋ถ๊ฐ๋ฅํ domain์์๋ง ๊ฐ๋ฅ
Rule-based Reward ๊ธฐ๋ฐ
reasoning domain (์: ์ํ)์์๋ ์ ๋ต์ ๋ช ํํ๊ฒ ํ๋ณํ ์ ์์
โ ๋ง์์ผ๋ฉด reward = 1, ํ๋ ธ์ผ๋ฉด 0 ๊ฐ์ rule-based reward ์ฌ์ฉ ๊ฐ๋ฅ
GRPO (Group Relative Policy Optimization):
DeepSeek-R1์์ ์ฌ์ฉ. ์ํ ๋ฌธ์ ์ ๋ํด ๊ธด CoT ์์ฑ ์ ๋
PPO๋ ์ฌ์ฉ๋์ง๋ง, ์์น์ reward์ ์์ ์ฑ๊ณผ gradient variance๊ฐ ๋ฌธ์ ๋จ
| ๊ตฌ๋ถ | RLHF | GRPO / Rule-based RL | TTRL |
|---|---|---|---|
| supervision source | human preference | rule-based labels (์ ๋ต์กด์ฌ) | majority voting (pseudo-label) |
| label ํ์ ์ฌ๋ถ | ํ์ | ํ์ | ๋ถํ์ (label ์์) |
| ํ์ต ์์ | offline RL | offline RL | Test-time (online RL) |
| task | open-domain instruction | math, logic, program | math, logic, program |
2. Test-Time Reinforcement Learning (TTRL)
We study the problem of training a pre-trained model during test time using RL without ground-truth labels. We call this setting Test-Time Reinforcement Learning.
2.1 Methodology

๋ น์ ๋ฐฐ๊ฒฝ์ด TTS + ์ดํ ๋์จ ๊ฒฐ๊ณผ๋ก reward calaulation์ ํตํด Test-Time์ Training
M: ํ ๋ฌธ์ (q)์ ๋ํด ์์ฑํ๋ ๋ต๋ณ ์
N = batch_size(ํ๋์ ํ์ต step์์ ์ฌ์ฉํ๋ ๋ฌธ์ ์)
์ฒซ๋ฒ์งธ ๋ฌธ์ ์ M๊ฐ์ ๋ต๋ณ ๋ด๊ณ , votingํ๊ณ reward ๊ณ์ฐํด์ ๋ชจ์๋์๊ฒ R(y1, y)
์ํ(state)์ ํ๋(action)
- ์ฃผ์ด์ง ๋ฌธ์ (prompt) x๋ฅผ ์ํ(state)๋ก ๋ณด๊ณ ,
- LLM์ ๊ทธ์ ๋ํ ๋ต๋ณ y๋ฅผ policy ๏ปฟ๋ก๋ถํฐ ์์ฑ (sampling)
โ LLM์ ๋ต๋ณ ํ์ = RL์ action
Rollout: ๋ต๋ณ ์ฌ๋ฌ ๊ฐ ์์ฑ

Ground-truth label์ด ์์ด reward signal์ ๋ณด๋ด์ผํ๋๊น, ์ฌ๋ฌ๊ฐ์ candidate(ํ๋ณด) output์ ์์ฑ
โ x์ ๋ํด ๋ต๋ณ {y1,...,yM} ์ sampling
๋๋ค์ฑ ์๋ ์ํ๋ง์ผ๋ก M=64๊ฐ์ ๋ค์ํ ๋ต๋ณ ์์ฑ(appendix์์๋ 16)
โ ๋จ์ผ ๋ต์ด ์๋ ๋ค์ํ reasoning path๋ฅผ ํ๋ณดํด์ผ voting์ด ์๋ฏธ ์์
์ฌ๋ฌ๊ฐ์ ๋ต๋ณ์ ์๋์ผ๋ก ๋๋ค๋๋๊ฒ์ธ๊ฐ? ๋ฐ๋ก ์ค์ ์ ๋ฐ๊ฟ์ฃผ๋๊ฒ์ธ๊ฐ?
์๋ LLM์ ๊ฐ์ ์ ๋ ฅ์ ๋ํด์๋ ๋๋คํ๊ฒ ๋ค๋ฅด๊ฒ ๋์ค๊ธด ํจ.
ํ๋ผ๋ฏธํฐ๋ฅผ ์ผ๋ถ๋ฌ ๋ณํ์ํค์ง ์๊ณ , Randomized decoding ์ค์
โ temperature, top-p, top-k, sampling ํ์ ๋ฑ์ผ๋ก ์กฐ์

temperature = 0.6
top-p = 0.95
โ sampling๋ ๋ต๋ณ์ด ๋ค๋ฅด๊ฒ ๋์ค๋๋ก ์ ๋
Temperature: Setting the temperature to 1.0, as opposed to 0.6, increases the modelโs output entropy. This promotes more extensive exploration and allows the model to make better use of its prior knowledge for self-improvement, which is particularly important when addressing challenging benchmarks.
์ค์ ๋ก ์ดํ ์คํ์์ Parameter์ ๋ฐ๋ฅธ ๋น๊ต๊ฐ ์๊ณ ,
Dataset ๋์ด๋์ ๋ฐ๋ผ์ ์กฐ์ ์ด ํ์ํ๋ค๋ ํ๊ณ๋ฅผ ๋ฐํ.
(Figure 11 : Inappropriate RL Hyperparameters)
์ด๋ ค์ด task์ ๋ํด์๋ Temperature์ 1.0์ผ๋ก ํด์ผ ํจ๊ณผ๊ฐ ์ข์.
โ temperature ๋์ด๋ฉด diversity ์ฆ๊ฐ โ exploration ์ฆ๊ฐ โ high entropy โ ๋ค์ํ ๋ต๋ณ
์ ๋ต ์ถ์ถ + Majority Voting (Label ์ถ์ )

- ๊ฐ ๐ฆi์์ ์ต์ข ์ ๋ต๋ง extract โ ์ซ์, ์ ํ์ง
- majority voting (๋ค์๊ฒฐ)๋ก ๊ฐ์ฅ ๋ง์ด ๋์จ ๋ต์ pseudo-label ๐ฆโ๋ก ์ ํจ
Reward ๊ณ์ฐ

sampling๋ y๋ต์ด majority ๋ต์ด๋ ์ผ์นํ๋ฉด โ reward = 1
์๋๋ฉด โ reward = 0

โ ์ค์ ์ ๋ต์ ๋ชจ๋ฅด์ง๋ง, voting ๊ฒฐ๊ณผ์ ์ผ๋ง๋ ์ผ์นํ๋์ง๋ฅผ ๊ธฐ์ค์ผ๋ก ํ์ต ์ ํธ ์ ๊ณต
We sample 64 responses per prompt using the current model and randomly select 32 to use for training.
๋๋คํ๊ฒ 32๊ฐ๋ฅผ ํธ๋ ์ด๋์ ์ฌ์ฉ๊ทธ ์ค 32๊ฐ๋ง ๊ณจ๋ผ์ reward ๊ณ์ฐ์ ์ฌ์ฉ
โ ํฌํ๋ 64๊ฐ๋ก ํ๋๋ฐ, ๋์ค์ RL์ ๋๋ค์ผ๋ก ๋ฐ๋ง ์ฌ์ฉํจ. (๋๋ฌด ๊ณ์ฐ ๊ณผ๋ํ๋๊น)
์ ๊ณผ์ ์ batch size (N) ๋งํผ ๋ฐ๋ณตํจ. ๋งค ์ง๋ฌธ๋ง๋ค ์ ๋ฐ์ดํธ ํ๋๊ฒ ์๋.
Each RL step samples a batch of questions and computes policy gradients using the pseudo-rewards from majority voting.
โ ๊ฐ step๋ง๋ค ์ฌ๋ฌ ๊ฐ์ ์ง๋ฌธ(batch of questions)์ ์ฌ์ฉ
โ ์ด๊ฒ ๊ณง ์ฐ๋ฆฌ๊ฐ ๋งํ๋ โbatch sizeโ์ ํด๋น
๋ฐ์ดํฐ์ ๋ง๋ค ๋ค๋ฅด๊ฒ ์ฌ์ฉํ์.
AIME=80, AMC=30, MATH-500=10
AIME๋ ์ด๋ ค์ฐ๋๊น ์ฌ๋ฌ๋ฒํ๊ณ ์ ๋ฐ์ดํธํด์ค์ผ ํ๋ฆฐ ์ ๋ณด๋ก ์ ๋ฐ์ดํธ๊ฐ ๋ฐ๋ณต๋ ํ๋ฅ ์ด ์ค์ด๋ฌ.
Policy ์ ๋ฐ์ดํธ (RL)

batch size๋งํผ ๋ฐ๋ณตํ๋ฉด ์ด์ ๋ชจ์๋จ๋
๋ชฉํ: expected reward๋ฅผ ์ต๋ํํ๋ ๊ฒ โ ๋ค์๊ฒฐ์ด ์ณ๋ค๊ณ ๋ฏฟ์!
reward๊ฐ ๋์๋ ๋ต๋ณ ์ชฝ์ผ๋ก (gradient ascent)
ฮธ (๋ชจ๋ธ ํ๋ผ๋ฏธํฐ)๋ฅผ ์ ๋ฐ์ดํธ
LLM์ด prompt์ ๋ํด ์ฌ๋ฌ ๋ต๋ณ์ ์์ฑํ๊ณ , ๊ทธ ์ค ๋ค์๊ฒฐ๋ก ์ถ์ ๋ label๊ณผ ์ผ๋ง๋ ์ผ์นํ๋์ง๋ฅผ reward๋ก ์ผ์, LLM์ policy๋ฅผ reinforcement learning์ผ๋ก ์ ๋ฐ์ดํธํ๋ค.
2.2 Majority Voting Reward Function

pythonfrom collections import Counter def majority_voting_reward_fn(outputs): # 1. ์ ๋ต ์ถ์ถ answers = [extract_answer(output) for output in outputs] # 2. ๋ค์๊ฒฐ๋ก label ์ถ์ counts = Counter(answers) majority_answer, _ = counts.most_common(1)[0] # 3. reward ๊ณ์ฐ (์ผ์น ์ฌ๋ถ ๊ธฐ์ค) rewards = [1 if ans == majority_answer else 0 for ans in answers] return rewards
3 Experiments
3.1 Experimental Setup
| ๊ตฌ์ฑ์์ | ์ค์ ๋ด์ฉ | ์ด์ |
|---|---|---|
| Models | Qwen, LLaMA, Mistral, DeepSeek ๋ฑ ๋ค์ํ scale์ LLM | pretrained + post-trained ๋ชจ๋ธ ๋ชจ๋ ์ฌ์ฉ โ TTRL์ด ์ ํ์ ์ธ SFT ์ดํ์๋ ์๋ ๊ฐ๋ฅํ์ง ๊ฒ์ฆ |
| Tasks | AIME 2024, AMC, MATH-500, GPQA | ์ ๋ต์ด ๋ช ํํ๊ณ ์ฑ์ ๊ฐ๋ฅํ task ์์ฃผ ์ ํ |
| Sampling | 64๊ฐ ์์ฑ, 32๊ฐ ํ์ต ์ฌ์ฉ | label estimation ์ ๋ขฐ๋ ํ๋ณด + ์ฐ์ฐ ํจ์จ ๊ณ ๋ ค |
| Decoding | temp=0.6, top-p=0.95 | |
| RL Algorithm | GRPO, AdamW, Cosine schedule Learning rate:5 ร 10โปโท | ์คํ์ ์ผ๋ก ์์ ์ฑ๊ณผ sample-efficiency๊ฐ ๊ฒ์ฆ๋ ๋ฐฉ์ |
| Max Length | 3072 (์ผ๋ฐ), 32768 (LRM) | CoT์ฒ๋ผ ๊ธธ๊ณ reasoning-heavyํ ๋ต๋ณ๋ ์ฒ๋ฆฌ ๊ฐ๋ฅํ๋๋ก ์ค๊ณ |
| Episodes | AIME=80, AMC=30, MATH-500=10 | dataset ๋์ด๋์ ํฌ๊ธฐ์ ๋ง์ถฐ ์ ์ ํ ์กฐ์ |
Dataset ์ค๋ช
AIME 2024 - American Invitational Mathematics Examination
- ๊ณ ๋ฑํ๊ต ์์๊ถ ๋์ ๋ฏธ๊ตญ ์ํ ๊ฒฝ์๋ํ (3-digit integer)
AMC - American Mathematics Competitions
- AIME๋ณด๋ค ์ฌ์ด ๋จ๊ณ์ ์ ๋คํ ์ํ ๊ฒฝ์ ๋ฌธ์ (5์ง์ ๋ค A~E)
MATH-500 - Open-source ์ํ ๋ฌธ์ ์ง์์ 500๊ฐ ์ถ์ถ
- ์์, ์ ์ โ ํ๋ก๊ทธ๋จ์ผ๋ก ์ง์ ๊ณ์ฐ (symbolic checker ์ฌ์ฉ)
GPQA - Graduate-level Physics Question Answering
- ์ด ์ค Diamond ๋์ด๋๋ง (๊ฐ๊ด์)
3.2 Main Results
Table 1 : Performs well on most tasks

Qwen2.5-Math-1.5B ๊ฐ์ 1.5B ๋ชจ๋ธ์ด 73.0๊น์ง ๊ฐ๊ธฐ๋ ํจ.
โ ์ํ ๋ชจ๋ธ์ RL์ด ์ด๋ ค์ ๋ค๋ ๊ฑธ ๊นธ
* ์ฌ๊ธฐ์๋ Qwen3-8B๊ฐ non-thinking mode์ด๊ณ , thinking mode๋ Figure 3
Table 2 : Performs well on most models

LLaMA-Instruct, DeepSeek-R1, Mistral ๋ฑ ๋ค์ํ ๋ชจ๋ธ์์ ํ ์คํธ
Figure 3 : TTRL performs well on LRMs

Large Reasoning Models์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์
์ด๋ฏธ Reasoning์ชฝ์ผ๋ก ํ๊ฒํด์ ํ์ตํ ๋ชจ๋ธ๋ ํฅ์๋จ
Figure 4 : TTRL generalizes well beyond the target task

ํน์ ๋ฒค์น๋งํฌ์์ ํ์ต ํ ๋ค๋ฅธ task์์๋ ์ฑ๋ฅ์ด ๊ฐ์ด ์ฌ๋ผ๊ฐ.
Figure 5 : TTRL is compatible with different RL algorithms

GRPO, PPO, PRIME์ ๋น๊ต
GRPO (rule-based), PPO (value-based), PRIME (process-level reward)
โ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก๋ ํธํ์ด๋๋ค.
PPO : Proximal Policy Optimization
ํ์ฌ์ policy๋ฅผ ๋๋ฌด ๋ง์ด ๋ฐ๊พธ์ง ์์ผ๋ฉด์ ์กฐ๊ธ์ฉ ์ข์์ง๊ฒ
value function V(s) ์ ์ฌ์ฉํด์ ํ์ฌ ์ํ๊ฐ ์ผ๋ง๋ ์ข์์ง๋ฅผ ์์ธกํ๊ณ ,
๊ทธ ๊ธฐ์ค์ผ๋ก ์ผ๋ง๋ ์ ์ฑ ์ ๋ฐ๊ฟ์ง๋ฅผ ๊ณ์ฐ
PRIME : Process Reinforcement through Implicit Rewards
๊ฐ ํ ํฐ ๋จ์๋ก ๊ณ์ฐ๋ log-prob ratio๋ฅผ ์ฌ์ฉํด reward๋ฅผ ๊ตฌ์ฑ
๊ทผ๋ฐ, reward source๋ ์ฌ์ ํ majority voting ๊ธฐ๋ฐ์ด์์ ๊ฐ๋ฅ์ฑ์ด ํผ
GRPO : Group Relative Policy Optimization
๊ฐ์ ์ง๋ฌธ์ ๋ํ ์ฌ๋ฌ ์๋ต์ ์๋์ ์ธ ์ ๋ต๋ฅ ์ ๋น๊ตํ์ฌ ๋ณด์์ ์ฃผ๋ ๋ฐฉ์
N๊ฐ์ ์ํ, ๋คํญ reward, ๋ค์์ฑ ์ํ๋ง, online setting ๋ฑ์ ๋ชจ๋ ์ ์ฉ ๊ฐ๋ฅ
DPO : Direct Preference Optimization (์ฌ์ฉ ์ํจ)
๋ ์๋ต ์ค ์ด๋ ์ชฝ์ด ๋ ์ข์์ง์ ๋ํ ์ธ๊ฐ์ "์ ํธ"๋ฅผ ์ง์ ํ์ตํ๋ ๋ฐฉ์
reward๊ฐ ๋จ์ํ 0/1 ํํ์ pairwise ๋น๊ต๋ก ์ ํ
preference ๋ค์ด๊ฐ์ offline ๊ตฌ์กฐ์.
โ ์ด ๋ ผ๋ฌธ์์ ์ ์ฉ ๋ชปํจ.
Figure 6 : Achieves sustainable self-evolution through โonlineโ and โRLโ

pass@1, avg@16, maj@16 ์ด ๋ญ์ผ?
pass@1
โ TTRL ๋ชจ๋ธ์ด ํ์ฌ ์ํ๋ก inference ํ ๋ ๋จ์ผ ์ํ์ด ์ ๋ต์ผ ํ๋ฅ
โ ์ค์ ์ฌ์ฉ์ ์ฑ๋ฅ
avg@16
- ๊ฐ ๋ฌธ์ ์ ๋ํด ์์ฑ๋ 16๊ฐ์ ๋ต๋ณ ์ค ์ ๋ต์ธ ๋น์จ์ ๊ณ์ฐ
โ ์๋ฅผ ๋ค์ด ์ ๋ต์ด 10๋ฒ ๋์์ผ๋ฉด ๊ทธ ๋ฌธ์ ์ ์ ์๋ 10/16
- ์ด๋ ๊ฒ ๋ชจ๋ ๋ฌธ์ ์ ๋ํด ํ๊ท ์ ๋ธ ๊ฒ
โ ground truth๋ ๋น๊ตํด์ผํ๋๊น ์ฌ์ค์ ๋์ค์ ์ฑ๋ฅ ํ๊ฐ์ฉ์
maj@16
- ๋ค์๊ฒฐ๋ก ๋ฝ์ ์๋๋ผ๋ฒจ์ด ์ ๋ต์ด๋ฉด 1์
- ์ด๋ ๊ฒ ์ ์ฒด ๋ฌธ์ ์ ๋ํด ํ๊ท ์ ๋ด๋ฉด
maj@64accuracy
TTRL์ ๋จ์ํ ๊ธฐ์กด์ pseudo-label์ ์๋ ดํ๋ ๊ฒ ์๋๋ผ, pseudo-label ์์ฒด๋ ๊ณ์ ๊ณ ๋ํ๋๊ณ ์์
- TTRL์ ๊ตฌ์กฐ์, ์์ ์ ์์ธก(y_hat)์ผ๋ก๋ถํฐ ๋ง๋ ๋ณด์์ ๊ธฐ๋ฐ์ผ๋ก ์ค์ค๋ก ํ์ตํจ
- ๊ทธ๋ฌ๋ฉด ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ํฅ์๋๊ณ , ๊ทธ์ ๋ฐ๋ผ ๋ ์ข์ ์์ธก โ ๋ ๋์ pseudo-label โ ๋ ๋์ ํ์ต ์ ํธ๋ก ์ด์ด์ง๋ ์๊ธฐ๊ฐํ ๋ฃจํ(self-reinforcing loop) ํ์ฑ
์ด ๋ ผ๋ฌธ์์๋ RL์ ์ธ ๋ maj@16 ๊ธฐ์ค์ผ๋ก reward๋ฅผ ๊ณ์ฐ(GRPO) ํ๊ณ ,
ํ์ต ์ดํ ์ฑ๋ฅ ํ๊ฐ์์๋ avg@16, maj@16 ๋ ๋ค ํ์ธํจ.
4 Analysis and Discussions
4.1 Q1: How Well Can TTRL Perform?
๊ธฐ์กด self-training ๋ฐฉ์์ ์ํ์ ๋ค๊ณผ ๋น๊ตํด์ ์ด๋๊น์ง ๋๋ฌํ ์ ์๋์ง ์คํ์ ์ผ๋ก ๊ฒ์ฆ

TTRL ์ /ํ์ avg@64, maj@64 ๋น๊ต
โ ๋ชจ๋ benchmark์์ TTRL ์ ์ฉ ํ avg@64, maj@64 ๋ ๋ค ์ฑ๋ฅ์ด ์ฆ๊ฐ
TTRL์ ํ์ต ์ ํธ๋ก maj@n์ ์ฌ์ฉํ์ง๋ง, ํ์ต ์ดํ ๊ฒฐ๊ณผ๋ ๊ทธ ์ํ์ ์ ์ด๊ณผ

RL : ground-truth label์ด ์๋ ์ํ์์ RL์ ์ง์ ๋๋ฆฌ๋ ๊ฒฝ์ฐ
์ฌ์ค RL์ Label์ด ์์ด์ Test-Time์ ๋ถ๊ฐ๋ฅ โ ๊ทธ ์ฑ๋ฅ์ ๋ฐ๋ผ๊ฐ
๊ทธ๋ฐ๋ฐ ์ด๋ป๊ฒ TTRL์ด ์ค๊ฐ accuracy์์ leakage๋ณด๋ค ๋์์ง ์ ์๋?
Leakage RL์ ๋จ์ผ ์ํ์ ๋ํด reward๊ฐ binaryํจ
- ์ ๋ต์ด๋ฉด +1, ์ค๋ต์ด๋ฉด 0
โ ์ด๊ฑด very sparse + very high variance reward
โ ๋ฐ๋ผ์ ์ด๋ฐ์๋ policy๊ฐ ์ด reward๋ฅผ ์ ๋๋ก ํ์ฉํ๊ธฐ ์ด๋ ค์
๋ฐ๋๋ก TTRL์ softํ avg ๊ธฐ๋ฐ reward๋ฅผ ์ฌ์ฉํจ
- ์๋ฅผ ๋ค์ด ์ ๋ต์ด ์ ์ฒด 32๊ฐ ์ค 18๊ฐ๋ฉด reward๊ฐ 0.5625
- ์ด๊ฑด gradient variance๊ฐ ๋ฎ๊ณ ์์ ์ ์ธ ํ์ต์ด ๊ฐ๋ฅ
ํ์ง๋ง ์๊ฐ์ด ์ง๋๋ฉด, ์ ๋ต ๊ธฐ๋ฐ reward๊ฐ ๋ ์ ํํ๋ฏ๋ก TTRL๋ณด๋ค ๋ ๋์ ํ๊ณ ์ฑ๋ฅ์ ์๋ ดํ๊ฒ ๋จ
4.2 Q2: Why Does TTRL Work?
1. Label Estimation

Label Accuracy์ Reward Accuracy๋ ๋ค๋ฅด๋ค!!
- label accuracy๋ ๋ฎ์ (majority voting์ผ๋ก ๋ง๋ pseudo-label์ด ํ๋ฆฌ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์)
- ๊ทธ๋ฌ๋ reward accuracy๋ ๋๊ฒ ์ ์ง๋จ
"Lucky Hit" ํ์: sampling๋ ๋ต ์ค ์ ๋ต์ ์ฐ์ฐํ ๋ง์ถ ์ ์๊ณ , ์ด๊ฒ ๋์ ๋ณด์์ผ๋ก ์ด์ด์ง
๋ผ๋ฒจ์ด ํ๋ฆด ์ ์์ด๋, reward๋ ์ฐ์ฐํ ๋ง๊ธฐ ๋๋ฌธ์ ๋ณด์ ์ ํธ๋ ์ถฉ๋ถํ ์ ํจํ๊ณ ,
RL์ ์๋ ๊ทธ๋ฐ noise์ ๊ฐํ๋ฏ๋ก, label์ด ๋ถ์ ํํด๋ ํ์ต์ด ์์ ์ ์ผ๋ก ์งํ๋ ์ ์๋ค.
2. Reward Calculations
๋น๊ต ๊ธฐ๋ฐ์ด๊ธฐ ๋๋ฌธ์ "์ด ์ข๊ฒ" ์ฌ๋ฐ๋ฅธ ๋ณด์์ ์ค ์ ์๋ค
- yฬ๊ฐ label๊ณผ ๊ฐ์ผ๋ฉด โ positive reward
- yฬ๊ฐ label๊ณผ ๋ค๋ฅด๋ฉด โ negative reward
๊ทผ๋ฐ ์ด label์ด ์ค์ ์ ๋ต์ด ์๋ ์๋ ์์
๊ทธ๋๋ yฬ๊ฐ ํ๋ฆฐ label์ด๋๋ ๋ค๋ฅด๋ฉด, ๊ทธ๊ฑด "ํ๋ฆฐ ๊ฑฐ๋ค"๋ผ๋ ๋ถ์ ์ ์ ํธ๋ก๋ ์ฌ์ ํ ๋ง์
โ label์ด ํ๋ ค๋ reward๋ ์ฐ์ฐํ ๋ง๋ ๊ฒฝ์ฐ๊ฐ ๋ง์

| ๋ฌด์์ ๊ธฐ์ค์ผ๋ก reward? | ์์ธก๊ฐ | reward |
|---|---|---|
| True label (3) | 1 1 2 2 2 4 5 6 | 0 0 0 0 0 0 0 0 โ ์ ๋ถ ์ค๋ต |
| Estimated label (2) | 1 1 2 2 2 4 5 6 | 0 0 1 1 1 0 0 0 โ 3๊ฐ ์ ๋ต ์ฒ๋ฆฌ |
โ 8๊ฐ ์ค 5๊ฐ๋ ์ฌ๋ฐ๋ฅธ reward๋ฅผ ์ค
rollout ๊ธฐ๋ฐ robustness
ํ๋์ ์ง๋ฌธ์ ๋ํด ์ฌ๋ฌ ๊ฐ (M๊ฐ)์ ๋ต๋ณ์ samplingํ๊ธฐ ๋๋ฌธ์:
- ํ๋๋ผ๋ label๊ณผ ์ผ์นํ๋ output์ด ์์ผ๋ฉด โ positive reward
- ํ๋๋ ์๋๋ผ๋ โ negative reward๋ ์ ํํ ๊ณ์ฐ๋จ
๋ชจ๋ธ์ด ๋ชปํ ์๋ก reward accuracy๋ ์คํ๋ ค ์ฌ๋ผ๊ฐ๋ค?
AIME 2024์์
- label accuracy: 37%
- reward accuracy: 92%
๋ชจ๋ธ์ด ๋ค์ํ ์ค๋ต์ ๋ด๊ธฐ ๋๋ฌธ์ (e.g., ๊ฐ์ฅ ๋ง์ด ๋์จ ๋ต์ด 16.6%์ ๋ถ๊ณผ)
๊ฐ๊ฐ์ output์ด ๋ค ๋ค๋ฅธ ํ๋ฆฐ ๋ต์ด๋ฏ๋ก โ label๊ณผ ์ผ์นํ์ง ์์
๊ทธ ์์ฒด๋ก negative reward๊ฐ ์ ๋๋ก ์ ๋ฌ๋จ (๋น๊ต ๊ฒฐ๊ณผ ๋ค๋ฅด๋๊น)
3. Online Learning
์จ๋ผ์ธ RL ์ ๊ทผ ๋ฐฉ์์ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋๋๊น ๋ชจ๋ธ์ applicationํ๋ฉด์ ๊ธฐ๋ฅ์ ํฅ์์ํฌ ์ ์์ผ๋ฉฐ, ์ด๋ ํฌํ๋ฅผ ํตํด ์์ฑ ๋๋ณด๋ค ์ ํํ ๋ ์ด๋ธ๋ก ์ด์ด์ง
โ supervision ์ ํธ์ ํ์ง์ด ํฅ์๋์ด ์ง์ ๊ฐ๋ฅํ ์๊ธฐ ์งํ๊ฐ ๊ฐ๋ฅ (Figure 6 ๋ด์ฉ)
4.3 Q3: When Might TTRL Fail?
Figure 11 : Inappropriate RL Hyperparameters

TTRL์ unsupervised + reward estimation์ด noisyํ ๊ตฌ์กฐ์ด๊ธฐ ๋๋ฌธ์,
์ผ๋ฐ์ ์ธ RL๋ณด๋ค ํ์ดํผํ๋ผ๋ฏธํฐ์ ํจ์ฌ ๋ฏผ๊ฐํจ.
- ํนํ ์คํจํ ๊ฒฝ์ฐ๋ Entropy๊ฐ ๋๊น์ง ๋ฎ์์ง์ง ์์ (โ exploration ์คํจ)
- ์คํ์ ์ผ๋ก ๋ค์ ๋ ๊ฐ์ง๊ฐ ํต์ฌ์:
(1) Temperature
T=1.0์ผ๋ก ๋์ด๋ฉด ๋ ๋ง์ entropy (๋ ๋ค์ํ ๋ต๋ณ)
- exploration์ด ๋ง์์ง๊ณ prior knowledge๋ฅผ ๋ ์ ์ฐ๊ฒ ๋จ
- challenging benchmark (ex. AIME)์์ exploration์ด ๋งค์ฐ ์ค์
(2) Episodes
- ๋ฌธ์ ์ ์ ๊ณ ๋์ด๋ ๋์ ๋ฐ์ดํฐ์ (ex. AIME 2024)์ ์ํผ์๋ ์๊ฐ ๋ง์์ผ ํจ
- exploration์ ์ถฉ๋ถํ ํ์ง ์์ผ๋ฉด ์๋ ด ๋ถ๊ฐ
โ TTRL์ ๋ฌธ์ ์ ๋์ด๋/๋ถํฌ/๊ท๋ชจ์ ๋ฐ๋ผ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ ์กฐ์ ํด์ผ ํจ
Table 3: Lack of Prior Knowledge on Target Task

TTRL์ test set๋ง ๊ฐ์ง๊ณ ํ์ตํ๊ธฐ ๋๋ฌธ์,
๋ชจ๋ธ์ด ๊ทธ ๋ถ์ผ์ ๋ํ ์ฌ์ ์ง์์ด ์์ผ๋ฉด ์์ ํ ์คํจํ ์ ์์
- curriculum learning (์ฌ์ด ๋ฌธ์ ๋ถํฐ) ๊ฐ์ ๋์ ์ด ์์
- ์ฌ์ ํ์ต๋ knowledge ์์ด ์ด๋ ค์ด ๋ฌธ์ ์ ๋ฐ๋ก ์ ์ํด์ผ ํจ
- ๋์ด๋๊ฐ ๋์์ง์๋ก ์ฑ๋ฅ ํฅ์ ํญ ๊ฐ์
- ๋ฌธ์ ๊ธธ์ด ๊ฐ์์จ๋ ๋จ์ด์ง
โ ์ด๋ ค์ด ๋ฌธ์ ์ผ์๋ก backbone์ ์ฌ์ ์ง์ ๋ถ์กฑ์ผ๋ก ํ์ต์ด ํ๋ค๋ค๋ ์ฆ๊ฑฐ
7 Limitations and Future Works
Limitations
- TTRL์ ์ด๊ธฐ ํ์ ๋จ๊ณ์ ๋ถ๊ณผํ๋ฉฐ,
- ๋ค์ ๋ ์์๊ฐ ํ์ต ์ฑ๋ฅ์ ํฐ ์ํฅ์ ๋ฏธ์นจ์๋ ์์ง ์ ๋์ ๋ถ์์ด ๋ถ์กฑํจ:
- ๋ชจ๋ธ์ ์ฌ์ ์ง์ ์์ค (prior knowledge)
- ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ (temperature, episode ์ ๋ฑ)
Future Works (๋ ผ๋ฌธ์ ๋์จ ๋ด์ฉ)
- ์ด๋ก ์ ๋ถ์
- TTRL์ด 4.1์์ ์ ์ํ ๋ upper bound(maj@n / RL leakage)์ ๋ํด ์ผ๋ง๋ ์๋ ด ๊ฐ๋ฅํ์ง ์ด๋ก ์ ์ผ๋ก ๋ถ์
- convergence theory์ optimality ์กฐ๊ฑด ๊ท๋ช
- ์คํธ๋ฆฌ๋ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์จ๋ผ์ธ ํ์ต
- ํ์ฌ TTRL์ static test set ๊ธฐ์ค
- ์ด๋ฅผ ์ค์๊ฐ ๋์ฐฉํ๋ ๋ฐ์ดํฐ ์คํธ๋ฆผ์ ์ ์ํ๋ ํํ๋ก ํ์ฅํ๋ ค๋ ๊ณํ
โ ์ง์ ํ Test-Time Adaptation (TTA)์ผ๋ก์ ํ์ฅ
- ๋๊ท๋ชจ self-supervised RL
- TTRL์ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ + ๋ํ LLM์ ์ ์ฉ
- ์ธ๊ฐ์ ๋ผ๋ฒจ๋ง ์์ด๋ ๊ฐ๋ ฅํ ์๊ธฐ์ง๋ ๊ฐํํ์ต ์์คํ ์ผ๋ก ๋ฐ์ ์ํค๋ ค๋ ๋ฐฉํฅ
- Agentic Task ๋ฐ ๊ณผํ์ ์ถ๋ก
- TTRL์ ๋จ์ QA ๋๋ math benchmark๊ฐ ์๋,
- ์ฅ๊ธฐ์ ๊ณํ์ด ํ์ํ agentic task
- ์ฌ๋ฌ ๋จ๊ณ์ ๋ ผ๋ฆฌ๋ฅผ ์ํ๋ ๊ณผํ์ ๋ฌธ์ ํด๊ฒฐ์ ํ์ฅ
- open-endedํ domain์ผ๋ก๋ TTRL ์ ์ฉ ๊ฐ๋ฅ์ฑ ํ์ง
- TTRL์ ๋จ์ QA ๋๋ math benchmark๊ฐ ์๋,
Limitations & Future Works (๋ด ์๊ฐ)
- Hyperparameter Sensitivity
RL training is highly sensitive to hyperparameters.
โAutomatic hyperparameter tuning
- Too much resource
The experiments require 8 ร A100 80GB GPUs
โ Parameter-efficient by LoRA
- Only for simple QA
Experiments are focused on math & multiple-choice
โ Extend to complex, multi-step reasoning tasks
Q&A
๋ ผ๋ฌธ Presentation ๋ฐํ ์ค ์ ๋๋ก ๋ต๋ณ ๋ชปํ Q&A
Q1) ์ด๊ฑฐ Test-Time์ RL ์ฒซ ๋ ผ๋ฌธ ๋ง๋๊ฐ?
์ด๋ก ์ Test-Time + RL ๊ตฌ์กฐ์ ์ฒซ ๋ ผ๋ฌธ์ ์๋๋ค.
GRPO ์์ฒด๋ test-time์ ์ธ ์ ์๊ณ , label ์์ด๋ reward ๋ง๋ค ์ ์์ง ์๋?
- GRPO๋ RL ์๊ณ ๋ฆฌ์ฆ (optimizer)
- TTRL์ ์ ์ฒด ํ๋ ์์ํฌ
GRPO๋ฅผ ์๊ฐํ DeepSeekMath
โ GRPO๋ฅผ test-time์์ label ์์ด ์ฐ๋ ๊ฑด ๊ฐ๋ฅ
TTRL์์ ์ ์ํ GRPO๋ฅผ test-time์ ์ค์ ๋ก ์ฐ๋ ค๋ฉด ํ์ํ ์์๋ค
- test-time input stream ์ฒ๋ฆฌ ๋ฐฉ์
- sampling strategy (M๊ฐ ์์ฑ โ voting)
- pseudo-label โ reward ๋ณํ ํจ์
- GRPO๋ฅผ ์๋์ํฌ ์ ์๋ reward scaling
- batch-level update โ continual self-evolution
โ ์ค์ ๋ก ์๋ํ๊ฒ ๋ง๋๋ ํ๊ฒฝ + ์ ๋ ฅ + reward + ๋ฐ๋ณต ํ์ต ๋ฃจํ๋ฅผ ์ฒ์ ์ค๊ณ
์ฐ๋ฆฌ ์ฐ๊ตฌ์ค ์ง๋๊ต์๋์ด์ ๊ณตํ์ ๊ต์๋์ด ์ต๊ทผ์ ์ฐ์ ์ด ๋ ผ๋ฌธ๋ โTest-Time RLโ์ ์ ์๊ฐ ๋ง์
โ Test-Time RL์ ์ต์ด๋ผ๋ ๋ง์ ํ๋ฆผ.
์ฐจ์ด์ ์
BiTTA : ์ ๋ต ํด๋์ค ์์ฒด๋ ํ์ํ์ง ์์ง๋ง, ์ค์๊ฐ์ผ๋ก ์ฌ๋์ Binary Feedback์ด ํ์ํ๋ค.
TTRL : ์ง์ง๋ก label-free, oracle-free
์ ๋ต์ด ์๋ oracle์ binary feedback์ ํ์๋ก ํจ.
TTRL์ ์ด๋ ํ ๋ชจ๋ธ, ๋ฐ์ดํฐ์ ์๋ ์ ์ฉ ๊ฐ๋ฅํ์ง๋ง, (์ ๋ต์ด ๋ฑ ๋จ์ด์ง๊ธฐ๋ง ํ๋ฉด)
reward noise, model prior, dataset ๋์ด๋ ๋ฑ์ ์ํฅ์ผ๋ก
hyperparameter (batch size, temperature, episode ์ ๋ฑ)์ ๋งค์ฐ ๋ฏผ๊ฐ
โ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ด ํ์
Q2) Lucky hit์ฌ๋ ๊ฒฐ๊ตญ ํ๋ฆฐ๋ต์ผ๋ก ํ์ตํ๋๊ฑฐ ์๋๊ฐ?
์์ ์๋ชป ์ดํดํ๊ณ ์์๋ค. ๋ด๊ฐ ์๊ณ ์๋ ์ ๋ณด๋ BiTTA ์ฒ๋ผ Reward๋ฅผ 1๊ณผ -1๋ก ์ค์ผ์ง ๊ฐ๋ฅํ ๊ฒ์ด๋ค.
์์ธก์ด ํ๋ ธ์ผ๋ฉด -1์ด๋ผ๋ ๋ถ์ ์ ์ธ ๋ณด์์ ๋ช ์์ ์ผ๋ก ์ค์, ํ๋ฆฐ ๋ฐฉํฅ์ผ๋ก์ ํ๋ฅ ์ด ๋ฎ์์ง๋๋ก gradient

์์ - ๋ชจ๋ธ์ด ์ ๋ชจ๋ฅผ๋
[1, 1, 2, 2, 2, 4, 5, 6] โ majority๋ 2 (2๊ฐ)
โ 3/8์ด๋ผ์ ์ ๊ธด ํ์ง๋ง, ๋ถ๋ช ํ 2๊ฐ ์ ๋ต์ด๋ผ๋ ๊ฒ์ด ๊ฐํ๋๋ ๊ฑด ๋ง๋ค.
TTRL์์ ๋ชจ๋ธ์ด ์ ๋ชฐ๋ผ์ majority voting์ ํตํด ๋ฝ์ pseudo label = 2
0 0 1 1 1 0 0 0
์ ํธ๋ก Reinforcement Learning
๋ง์ฝ ์ค์ ๋ก true-label (3)์ ์ค ๋
0 0 0 0 0 0 0 0
์ ํธ๋ก Reinforcement Learning
๋ชจ๋ธ์ด ์ ๋ชจ๋ฅด๋ ๊ฒ์ ๋ํด์ label์ด ์์ด ํ์ง๋ง,
์ค์ ์ ๋ต label์ด ์์๋์ Reward ์ ํธ๊ฐ 62.5%๋ ์ผ์นํ๋ค! โ hit ratio
์ค์ ์ ๋ต ๋ผ๋ฒจ์ด ์๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ ผ๋ฌธ์ฒ๋ผ reward์์ penalty ์ ํธ์ธ -1์ ์ฃผ์ง ์๊ณ ,
๋ง์ผ๋ฉด 1, ํ๋ ค๋ 0 ์ผ๋ก ์ค์ ํ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
Q3) ์ด RL์์ action์ด ๋ญ๊ฐ?
state : ์ฃผ์ด์ง ๋ฌธ์ (prompt) x
action : LLM์ ๋ต๋ณ ํ์
โ LLM์ ๊ทธ์ ๋ํ ๋ต๋ณ y๋ฅผ policy ๏ปฟ๋ก๋ถํฐ ์์ฑ (sampling)