| ArXiv | https://arxiv.org/abs/2505.20633 |
|---|---|
| Authors | Jinwu Hu, Zhitian Zhang, Guohao Chen, Xutao Wen, Chao Shuai, Wei Luo, Bin Xiao, Yuanqing Li, Mingkui Tan |
| Affiliation | School of Software Engineering, South China University of Technology Pazhou Laboratory Zhejiang University South China Agricultural University Chongqing University of Posts and Telecommunications Key Laboratory of Big Data and Intelligent Robot, Ministry of Education |
Key Differentiator
Perplexity Minimization
๊ธฐ์กด TTA (ex. Tent, EATA, COME)๋ ์ ๋ถ entropy minimization ๊ธฐ๋ฐ
โ ์ถ๋ ฅ ๋ถํฌ์ ๋ถํ์ค์ฑ์ ๋ฎ์ถ๋ ๋ฐฉํฅ
ํ์ง๋ง ์ด ๋ ผ๋ฌธ์ LLM์ autoregressive ๊ตฌ์กฐ๋ฅผ ๊ณ ๋ คํด
โ ์ถ๋ ฅ entropy๊ฐ ์๋๋ผ ์ ๋ ฅ perplexity๋ฅผ ์ต์ํํ๋ ์์ ํ ๋ค๋ฅธ objective๋ฅผ ์ ์
2. Related Work
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ํน์ง๊ณผ LLM์์์ ํ๊ณ
Fine-tuning
: ๋ผ๋ฒจ๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธ
โ ๋ผ๋ฒจ๋ง ๋น์ฉ์ด ํฌ๊ณ , ํ์ค์์ ๊ณ์ํด์ ๋ผ๋ฒจ๋ ๋ฐ์ดํฐ๋ฅผ ๊ตฌํ๊ธฐ ํ๋ฆ
RAG (Retrieval-Augmented Generation)
: ์ธ๋ถ ์ง์ ๋ฒ ์ด์ค์์ ๊ด๋ จ ์ ๋ณด๋ฅผ ์ฐพ์์ ์๋ต์ ๋ฐ์
โ ๊ฒ์ ํ์ง์ ์์กด + ๊ฒ์ ๋น์ฉ ์์
TTT (Test-Time Training)
: ํ๋ จ ๋ฐ์ดํฐ๋ knowledge base์์ ์ ์ฌํ ๋ฐ์ดํฐ๋ฅผ ์ฐพ์์ ๋ชจ๋ธ์ ๋ฏธ์ธ ์กฐ์
โ ํ๋ จ ๋ฐ์ดํฐ ์ ๊ทผ ํ์ + ๊ฒ์ ๊ณผ์ ์ด ๋๋ฆผ
TTA (Test-Time Adaptation)
: ๋ผ๋ฒจ ์๋ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ์ ์์ํด
โ ๋๋ถ๋ถ entropy minimization (์ถ๋ ฅ์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋จ์ผํ๊ฒ ๋ง๋๋ ๋ฐฉ์)์ ์ฌ์ฉ
โ LLM์ autoregressive ๊ตฌ์กฐ์ธ๋ฐ, ์ด ๊ตฌ์กฐ๋ฅผ ๋ฌด์ํ๊ณ entropy๋ง ์ต์ํํ๋ฉด ํจ๊ณผ๊ฐ ๋จ์ด์ง
๊ธฐ์กด LLM TTA๊ฐ ๋ถ๊ฐ๋ฅํ ์ด์
- ๊ธฐ์กด TTA๋ ์ฃผ๋ก BatchNorm ํต๊ณ(mean/var)๋ฅผ ์ ๋ฐ์ดํธํ๋ฉด์ ์ ์
- ๊ทธ๋ฐ๋ฐ LLM์๋ BatchNorm์ด ์๊ณ ๋์ LayerNorm์ ์ฐ๊ณ ,
LayerNorm์ test-time์์ ์ ๋ฐ์ดํธํ ๊ฒ ์์ โ ๊ธฐ์กด ๋ฐฉ์ ์ ์ฉ ๋ถ๊ฐ
๊ทธ๋ผ LLM์์๋ ์ด๋ค test-time ์ ํธ๊ฐ ์๋๊ฐ?
โ ์ ๋ ฅ perplexity๋ฅผ ์ด์ฉํด์
โ backprop ๊ฐ๋ฅํ self-supervised objective๋ฅผ ์ค๊ณํจ
Why Entropy Minimization Doesnโt Work Well for LLMs?
Entropy๋?
entropy = uncertainty
[0.5, 0.5] โ high entropy
[0.99, 0.01] โ less entropy
Autoregressiveํ LLM์?
Predict tokens one by one
Each prediction depends on previous tokens
Errors accumulate over time
๋ฌธ์ ์
- Ignores token dependencies
- Optimizes locally, not globally
- Early mistakes โ later tokens collapse

4.1 Perplexity Minimization for Test-Time Learning
Entropy ๊ธฐ๋ฐ์ ๋ฌธ์ ์ ํด๊ฒฐ์ฑ
perplexity
: A metric that measures how confidently a language model predicts a given sequence
์ธ์ด ๋ชจ๋ธ์ด ์ฃผ์ด์ง ์ํ์ค๋ฅผ ์ผ๋ง๋ โ์์ ์๊ฒโ ์์ธกํ๋๊ฐ๋ฅผ ์ธก์ ํ๋ ์งํ
- log probability๊ฐ ํด์๋ก โ ์์ธก ์ํจ โ perplexity ๋ฎ์
- ํ๋ฅ ์์ธก์ด ๋ฎ๊ณ ๋ถํ์คํ ์๋ก โ perplexity ๋์
TTA์์์ ๋ฌธ์ ์ ์ ํด๊ฒฐ
entropy๋ [pโ, pโ, ..., p_T] ๊ฐ ํ ํฐ์ ๋ํด ๊ฐ๋ณ์ ์ผ๋ก ํ๋ฅ ๋ถํฌ๋ฅผ ๋ง๋ค์ด์ ํ ํฐ๊ฐ์ ๊ด๊ณ๋ณด๋ค๋, ๊ฐ ์์น์์ ๋จ์ผ ์ ๋ต์ ๊ฐํ๊ฒ ๋ง๋ค๋ ค๊ณ ํจ. โ ํ ํฐ ๊ฐ dependency ๋ฌด์
โ ์๊ทธ๋ง๋ก ์ ์ฒด ์ํ์ค์ ๋ํ joint probability์ log loss๋ฅผ ๊ตฌํ๊ธฐ ๋๋ฌธ์ ํ ํฐ ๊ฐ ์์กด์ฑ์ ์์ ํ ๋ฐ์ํจ
โ ์ ์ฒด ๋ฌธ์ฅ์ ์ผ๋ง๋ ์ ์์ธกํ๋๊ฐ? ๊ธฐ์ค์ผ๋ก loss ์ค
โ ๊ธ๋ก๋ฒํ ๊ด์ ์์ ๋ชจ๋ธ์ ์ ๋ฐ์ดํธ
๋ฌธ์ ์
ํ ์คํธ ์์ ground truth๊ฐ ์์ โ output perplexity๋ฅผ ๋ชป ์
x = input / y = output
- LLM ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ค๋ฉด ๋น์ฐํ P(y | x) ๋ฅผ ์ค์ด๋ ๊ฒ ๋ง์
- ํ์ง๋ง test-time์๋ y๋ฅผ ๋ชจ๋ฅด๊ธฐ ๋๋ฌธ์ ์์ ์์ ์ง์ ์ธ ์ ์๋ค.
โ ๋ฐ๊ฒฌ
P(y | x)๋ฅผ ์ค์ด๋ ๋์ P(x)๋ฅผ ์ค์ด๋ ๊ฒ๋ ํจ๊ณผ๊ฐ ์๋ค๋ ๊ฒ
"The trend of LLMโs perplexity to the input P(x; ฮ) and perplexity to the output P(y|x; ฮ) is the same.โ

์ผ์ชฝ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด,
input/output perplexity๋ฅผ ์ธก์ ํ์๋
๊ฐํ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ธ๋ค.
โ ์ ๋ ฅ perplexity๋ฅผ ์ค์ด๋ฉด ์ถ๋ ฅ๋ ๊ฐ์ด ์ข์์ง
์์ y๋ฅผ ์ฐ์ง ์๋ ๋ค์์ผ๋ก ๋ณ๊ฒฝ
4.2 Sample Efficient Learning Strategy
TTL์์ ๋ชจ๋ ํ ์คํธ ์ํ์ ๋ค ์ฌ์ฉํด์ ์ ๋ฐ์ดํธํ๋ฉด:
- ๊ณ์ฐ๋ ๋ญ๋น
- ํจ๊ณผ ์๋ ์ํ์ ๋ชจ๋ธ์ด ์คํ๋ ค ํ๋ค๋ฆด ์ ์์

โ ๋ฐ๊ฒฌ
- high-perplexity ์ํ๋ก ํ์ตํ๋ฉด ๋ ๋์ ROUGE ์ฑ๋ฅ
- low-perplexity ์ํ๋ง ์ฐ๋ฉด ์ฑ๋ฅ ์คํ๋ ค ๋จ์ด์ง
Low-perplexity input์ ์ด๋ฏธ ์ ๋ง์ถ๋ ๊ฒ์ด๋ผ ์ ๋ณด ๊ฑฐ์ ์๊ธฐ ๋๋ฌธ.
ROUGE(Recall-Oriented Understudy for Gisting Evaluation):์์ฐ์ด ์์ฑ ๊ฒฐ๊ณผ๋ฅผ reference ๋ฌธ์ฅ๊ณผ ๋น๊ตํด ์ผ๋ง๋ ์ ์ผ์นํ๋์ง ํ๊ฐํ
ROUGE-L : Longest Common Subsequence (LCS) ๊ธฐ๋ฐ์ผ๋ก ๊ณตํต ๋ถ๋ถ๋ฌธ์์ด
- ๏ปฟ โ informativeํ ์ํ๋ง ๊ณจ๋ผ ์ฐ์
- ๊ฐ ์ํ๋ง๋ค perplexity๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ์ S(x) ๋ฅผ ๋งค๊ธฐ๊ณ
- S(x)๊ฐ ๋์ ์ํ๋ง backpropagation์ ์ฌ์ฉ
Low-perplexity ์ํ์ ์ ์ธํ๊ณ , High-perplexity ์ํ์ ๋น์ค์ ํฌ๊ฒ ๋ถ์ฌํด์ ํ์ต์ ๋ฐ์
์ฌ๊ธฐ์ ์๋ผ๋น์์ซ์ 2 ๊ฐ์ด ์๊ธด๊ฑด, indicator function (์ง์ ํจ์)๋ฅผ ์๋ฏธํ๋ค.
์ฆ, ์กฐ๊ฑด์ ๋ง์กฑํ๋ฉด 1, ๋ง์กฑํ์ง ์์ผ๋ฉด 0์ด ๋๋ ๋ถ์ฐ์ ํจ์
ํจ๊ณผ
- ๋ถํ์ํ ์ํ ์ ๋ฐ์ดํธ๋ฅผ ์ค์ฌ ๊ณ์ฐ๋ ๊ฐ์
- ๋ informativeํ ์ํ๋ก๋ง ์ ๋ฐ์ดํธํด์ ์ฑ๋ฅ ํฅ์
4.3 Modulating Parameters for Test-Time Learning

LoRA(Low-Rank Adaptation)๋ ์ผ๋ถ linear layer์ ์์ ๋ญํฌ์ ๋ณด์กฐ ํ๋ ฌ A, B๋ฅผ ์ถ๊ฐํด์ ์ ๋ฐ์ดํธํจ
โ LoRA๋ก๋ง ์ ๋ฐ์ดํธํ ๊ฒฝ์ฐ, full-param update๋ณด๋ค original ์ฑ๋ฅ ์ ์ง๋ ฅ์ด ํจ์ฌ ์ข์
๋๋ฉ์ธ ์ ์ ์ค์๋ task ์ฑ๋ฅ ์ ์ง โ forgetting ์ต์
LoRA๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์์ ๊ฐ์ ์์ด ๋จ
5.1. Experimental Settings
Benchmark: AdaptEval
- ๋ ผ๋ฌธ์์ ๋ง๋ ์๋ก์ด ํ๊ฐ ๋ฒค์น๋งํฌ
- ๋ค์ํ ๋๋ฉ์ธ๊ณผ ๊ณผ์ ์ ํ์ ํฌํจํ์ฌ LLM์ ์ ์ ๋ฅ๋ ฅ์ ๋ค๊ฐ๋๋ก ํ๊ฐ
| Bench | ๋ชฉ์ | ํฌํจ๋ ๋ฐ์ดํฐ์ |
|---|---|---|
| DomainBench | ๋๋ฉ์ธ ์ง์ ์ ์ | Geography, Agriculture, Medicine, Finance |
| InstructionBench | ์ง์ ๋ฐ๋ฅด๊ธฐ | Alpaca-GPT4, Dolly, InstructionWild |
| ReasoningBench | ๋ ผ๋ฆฌ ์ถ๋ก | GSM8K, MetaMath, Logiqa |
ํ๊ฐ ์งํ (Metrics)
- DomainBench, InstructionBench โ ROUGE-Lsum (R-Lsum)
- ReasoningBench โ Exact Match (EM)
๊ฐ๊ฐ์ task ํน์ฑ์ ๋ง๋ ๋ํ ์งํ๋ฅผ ์ฌ์ฉํจ
LLM ๋ชจ๋ธ
- Llama3.2-3B-Instruct
- Llama3-8B-Instruct
- Llama2-13B-Chat
- Qwen2.5-7B-Instruct
Baselines
- Tent (Entropy minimization ๊ธฐ๋ฐ TTA)
- EATA (low-entropy ์ํ ์ ํ ๊ธฐ๋ฐ TTA)
- COME (๋ณด์์ entropy ์ต์ํ ๋ฐฉ์)
โ ๋ชจ๋ unlabeled test data๋ง ์ฌ์ฉํ๋ ์ต์ TTA ๊ธฐ๋ฒ
โ ๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ๋ชจ๋ offline ์ค์ ์ ๋ง์ถฐ ์ฌ๊ตฌํ
๊ตฌํ ์ธํ
- Optimizer: Adam
- Learning rate:
- DomainBench: 5e-5
- InstructionBench: 5e-5
- ReasoningBench: 1e-6
- Batch size: 1
- Decoding: Greedy, temperature = 0
- ฮป = 0.1, Pโ = eยณ (์ํ ์ ํ threshold)
5.2 Comparison Experiments

TLM์ ๋ชจ๋ task category์์ baseline ๋๋น ์ฐ์ํ ์ฑ๋ฅ์ ๋ฌ์ฑ
- DomainBench: ์ ๋ฌธ ์ฉ์ด, ๋๋ฉ์ธ-specific ํํ๋ค (์: ์๋ฃ, ๊ธ์ต ์ฉ์ด)
- InstructionBench: ์ง์๋ฌธ์ ํํ ๋ฐฉ์, ๋งํฌ, ์์ฒญ ์คํ์ผ ์ ์
โ ์ด๋ฐ ๊ณผ์ ๋ค์ ๋ชจ๋ธ์ด ์๋ก์ด ์ฉ์ด, ๋ฌธ์ฅ ํจํด์๋ง ์ ์ํ๋ฉด ์ฑ๋ฅ์ด ์ฌ๋ผ๊ฐ
โ ๊ทธ๋ฆฌ๊ณ TLM์ ์ ๋ ฅ perplexity ์ต์ํ โ ๋ฌธ์ฅ ํํ์ ๋ํ ์ดํด ๊ฐํ
โ ์ฆ, perplexity ๊ธฐ๋ฐ self-supervised ์ ์์ด ์ง์ ์ ์ผ๋ก ํจ๊ณผ์ ์

์ด ํ๋ง ๊ฐ์ด Exact Match (EM)์.
โ ์ ํํ ๋ต์ ์ผ๋ง๋ ๋ง์ท๋๊ฐ
ReasoningBench๋ ์ข์์ง๊ธด ํ์ง๋ง, ๋ ผ๋ฆฌ ๊ตฌ์กฐ๊ฐ ํต์ฌ์ด๋ผ chain-of-thought reasoning์ด ์ค์ํจ
โ test-time์ ์ ๋ ฅ๋ง ๋ณด๊ณ ๋ชจ๋ธ์ ๊ฐ์ ํ๋ ๊ฑด ์ ํ์ ์ธ ํจ๊ณผ๋ง ์์
โ ํนํ reasoning ๋ฅ๋ ฅ์ ์ด๋ฏธ pretraining + fine-tuning ๋จ๊ณ์์ ๊น๊ฒ ํ์ต๋์ด์ผ ํจ
5.3 Ablation Studies
| ๋ฒ์ | ์ค๋ช |
|---|---|
| Original LLM | ์๋ฌด๋ฐ TTL ์ ์ฉ ์ ํ ์๋ณธ |
| Ours (w/o SEL) | ์ํ ์ ํ ์์ด input perplexity๋ง ์ต์ํ |
| Ours | full TLM = SEL + LoRA + perplexity minimization |

Input Perplexity Minimization
โ ์ฑ๋ฅ ํฅ์์ ์ฃผ๋ ์์ธ
โ SEL ์์ด๋ 30~80% ํฅ์
Sample Efficient Learning (SEL)
โ ์ถ๊ฐ ํฅ์์ ์ ์ง๋ง,
โ ๊ณ์ฐ๋ ์ค์ด๋ฉด์ ์ฑ๋ฅ ์ ์ง
Threshold P0 (perplexity margin)

โ๋ค์ํ P0โ{e2,e3,...,e6} ์คํ
โ P0=e3 ์ผ ๋ ๊ฐ์ฅ ์์ ์ ์ด๊ณ ์ข์ ์ฑ๋ฅ

5.4 More Discussions

Online Test-Time Experiments
test-time์ ์ํ ํ๋์ฉ ๋ค์ด์ค๋ ์ํฉ์์๋ TLM์ด ์ ์๋ํ๋๊ฐ?
- ์ฒ์์๋ high-perplexity ์ํ์ด ๋ง์์ ์ ๋ฐ์ดํธ ๋ง์ด ํ๋ค๊ฐ
- ์ ์ ๋ชจ๋ธ์ด ์ ์ํ๋ฉด์ low-perplexity ์ํ์ด ๋์ด๋จ โ ์๋์ผ๋ก ํ์ต ์ค๋จ๋จ
Experiments on Quantized LLM
TLM์ quantized ๋ชจ๋ธ์์๋ ์ฑ๋ฅ ํฅ์ ์ ์ง
โ ๋ฉ๋ชจ๋ฆฌ ์ ํ ํ๊ฒฝ์์๋ ์ค์ฉ์
Limitation
๋ฐ๋ก ์ธ๊ธ์ ์์ง๋ง ๊ตณ์ด ๋ฝ์๋ฉด,
1. No Backprop-Free Variant (์ค์ inference ํ๊ฒฝ ์ ํ)
TLM์ backprop์ด ํ์ํจ โ ๋๋ถ๋ถ์ ์ค์ LLM ๋ฐฐํฌ ํ๊ฒฝ(API, closed-weight)์์๋ ์ ์ฉ ๋ถ๊ฐ
Future Work: Backprop-free TTL, e.g. prompt-based or derivative-free adaptation
2. Limited Effect on Reasoning Tasks
GSM8K, MetaMath ๋ฑ reasoning benchmark์์ ์ฑ๋ฅ ํฅ์ํญ์ด ์์
โ Perplexity minimization์ด ํํ ์ ์์๋ ๊ฐํ์ง๋ง, ๋ ผ๋ฆฌ์ ์ถ๋ก ์ ์ฝํจ
Future Work: TTL for logic and chain-of-thought reasoning
3. Domain-Specific Overfitting / Forgetting Risk
LoRA ์ฌ์ฉํด๋, ์ฅ๊ธฐ์ ์ผ๋ก ํน์ ๋๋ฉ์ธ์ ๋ฐ๋ณต ์ ์ ์ ์๋ ๋ฅ๋ ฅ(logic, general knowledge) ์ ํ ๊ฐ๋ฅ์ฑ ์กด์ฌ
Future Work: Continual TTL with forgetting mitigation
4. Hyperparameter Sensitivity (e.g., Pโ threshold)
์ํ ์ ํ ๊ธฐ์ค(Pโ = eยณ)์ด๋ ฮป ๊ฐ์ ๋ฏผ๊ฐ
๋๋ฉ์ธ/๋ชจ๋ธ์ ๋ฐ๋ผ ํ๋ ํ์ โ ์ค์ฉํ์ ๋ฐฉํด๋ ์ ์์
Future Work: Auto-tuning or adaptive sampling strategies
5. Session-Aware / Multi-Turn TTL ๋ฏธ์ง์
ํ์ฌ๋ ์ ๋ ฅ ๋จ์๋ก๋ง TTL ์๋. ๋ํํ ์์คํ ์ฒ๋ผ context๊ฐ ๋์ ๋๋ ํ๊ฒฝ์์๋ ์ ์ฉ๋์ง ์์
Future Work: Session-level TTL for conversational agents
Q&A
Q. LLM์์ Test-Time ํ์ต ์ต์ด์ธ๊ฐ?
๋ค์๊ณผ ๊ฐ์ ๋ ผ๋ฌธ๋ค์ ์์์.
LLM์ ํ ์คํธ ์์ ์ promptโspecific fineโtuning ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ,
์คํ์ ํตํด testโtime์๋ LLM์ ์ ๋ฐ์ดํธํ ์ ์๋ค๋ ์ ์ ๋ณด์ฌ์ค
๋ค๋ง, ์๋๊ฐ ๋๋ฆฌ๊ณ ๊ณ์ฐ ๋น์ฉ์ด ํฌ๋ค๋ ๋จ์
โ ๊ฐ๋ฅ์ ํ์ง๋ง ์ค์ฉ์์ ๋ฉ์์
Prompt tuning ๋นผ๋ฉด TLM์ด LLM์์ Test-Time ํ์ต์ ์ต์ด๋ก ์ค์ฉํํ ๋ ผ๋ฌธ
์ Table 5 ๋ฅผ ๋ณด๋ฉด ์ด๋ฏธ Tent๋ EATA๋ ํ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง, ์คํ๋ ค ๊ธฐ์กด LLM์ ํ๊ดดํ ์ฑ๋ฅ์ด ๋์ด.
Q. Output ๋ด๊ธฐ ์ ์ ํ์ตํ๋ ๊ฒ์ธ๊ฐ?
P(y|x)์ ๊ธฐ์ค์ผ๋ก ํ์ต ๋ชปํ๋ค๊ณ ํ๋๋ฐ, ์? ์ด์ฐจํผ output์ ๋์ค๋๊ฑฐ ์๋๊ฐ?
์ y๋ฅผ ์์ฐ๋๊ฐ?
๋ชจ๋ธ์ด ์์ฑํ yฬ๋ ์ ๋ต์ด ์๋ โ ground truth ์์
P(ลท | x)๋ฅผ ์ค์ด๋ฉด ์๋ชป๋ ์ถ๋ ฅ์ ๋ ํ์ ํ๊ฒ ๋ง๋๋ ๊ฒฐ๊ณผ๊ฐ ๋ ์ ์์
์์
- โ์ฌ๊ณผ๋ ๋นจ๊ฐ๋คโ๊ฐ ์ ๋ต์ธ๋ฐ
- ๋ชจ๋ธ์ด โ์ฌ๊ณผ๋ ๋ฐ๋๋๋คโ๋ผ๊ณ ์ถ๋ ฅํ์ ๊ฒฝ์ฐ
- ์ด๊ฑธ ๊ธฐ์ค์ผ๋ก loss๋ฅผ ์ค์ด๋ฉด ์คํ๋ ค ํ๋ฆฐ ์ถ๋ ฅ์ ๋ ํ์ ์ ์ฃผ๊ฒ ๋จ
์์
- ์
๋ ฅ
x๋ค์ด์ด
- ๋ชจ๋ธ์ด ํ์ฌ ํ๋ผ๋ฏธํฐ(ฮธ + ฮฮธ)๋ก ์ถ๋ ฅ
ลท์์ฑ
x์ ๋ํ perplexity ๊ณ์ฐ
P(x)๊ฐ ๊ธฐ์ค๋ณด๋ค ํฌ๋ฉด โ backprop์ผ๋ก LoRA ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ
- โ ์ด ์ ๋ฐ์ดํธ๋ ๋ค์ ์ ๋ ฅ๋ถํฐ ๋ฐ์๋จ
์ ๋ฆฌ
Although the true target y is unavailable at test time, we show that minimizing P(x) leads to update directions that are often aligned with those from minimizing P(y|x).
Test-time์ label y๊ฐ ์์ด์ ๊ทธ ์ํ์ ์ฑ๋ฅ์ ์ง์ ํ๊ฐํ ์ ์์
โ ๋์ , ๊ทธ ์ํ์ ๊ธฐ๋ฐ์ผ๋ก ์ ์ฒด ํ๋ผ๋ฏธํฐ๋ฅผ ์ ๋ฐ์ดํธํด์ ๋ฏธ๋์ ์์ธก๋ ฅ์ ๋์
โ TLM์ online self-supervised continual learning์ ๊ฐ๊น์