| ArXiv | https://arxiv.org/abs/2501.02336 |
|---|---|
| Github Code | https://github.com/ASISys/AdaSkip |
| Authors | Zhuomin He1*โ , Yizhen Yao1*โ , Pengfei Zuo2*, Bin Gao3โ , Qinya Li1โก, Zhenzhe Zheng1, Fan Wu1 |
| Affiliation | 1Shanghai Jiao Tong University 2Huawei Cloud 3National University of Singapore |
Key Differentiator
- Sublayer-wise skipping
- ๊ธฐ์กด์ layer ์ ์ฒด ๋จ์๋ก ์คํตํ์ง๋ง,
- Attention๊ณผ FFN์ ๋ถ๋ฆฌํด์ ์ ํ์ ์ผ๋ก ๊ฑด๋๋
- Auto-adaptive
- ๊ธฐ์กด์๋ Decoding๋จ๊ณ์๋ง ์คํต์ ํ์ง๋ง,
- IO similarity ๊ธฐ๋ฐ์ผ๋ก prefilling(offline) + decoding(online) ๋จ๊ณ๋ฅผ ๋ค๋ฅด๊ฒ ๋ค๋ฃธ
- Applicable to both prefilling & decoding
- Prefilling(์ฒ์ ์ ๋ ฅ ์ฒ๋ฆฌ ๋จ๊ณ)์์๋ ์คํต ์ ๋ต์ ์ฐ๊ณ ,
- Decoding(ํ ํฐ๋ณ ์์ฑ ๋จ๊ณ)์์๋ online learning์ผ๋ก ๋์ ๋ณด์
Why I chose this paper?
- VLM Agent ๊ฒฝ๋ํํด์ ๋ชจ๋ฐ์ผ์์ ์ ๋์๊ฐ๊ฒ ํ๋ ์ฐ๊ตฌ ์งํ์ค
- Early Exit ๋ฐฉ์์ ํตํด ๋ ์ ํ๋๊ฐ ์ข์์ง๋ ๊ฒฝ์ฐ๊ฐ ์์ด์ ์์ด๋์ด ์ป๊ธฐ ์ํด์
- ์ด๋ป๊ฒ ์คํํ๋์ง ์ฐธ๊ณ ํ๊ธฐ ์ํด์
Background and Motivation
IO Similarity and Transformer Module Importance
IO Similarity? (Input-Output)
Transformer์ ํ ๋ชจ๋(ํ ๋ธ๋ก์ Attention ์๋ธ๋ ์ด์ด or FFN ์๋ธ๋ ์ด์ด)์์
์ ๋ ฅ ๋ฒกํฐ์ ์ถ๋ ฅ ๋ฒกํฐ๊ฐ ์ผ๋ง๋ ๋น์ทํ์ง ์ฝ์ฌ์ธ ์ ์ฌ๋(cosine similarity)๋ก ์ธก์
- IO similarity๊ฐ ๋๋ค โ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ๊ฑฐ์ ๊ฐ์ โ ๋ชจ๋์ด ํฐ ๋ณํ ์์ด ๋ฐ์ดํฐ๋ฅผ ์ ๋ฌ โ ์ค์๋๊ฐ ๋ฎ์
- IO similarity๊ฐ ๋ฎ๋ค โ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ด ๋ง์ด ๋ค๋ฆ โ ๋ชจ๋์ด ์ ๊ทน์ ์ผ๋ก ๋ณํ โ ์ค์๋๊ฐ ๋์
IO Similarity์ ์ค์๋์ ๊ด๊ณ ๊ฒ์ฆ
1์ฐจ ์คํ: ๊ฐ ๋ ์ด์ด์ IO similarity๋ฅผ ์ธก์ ํ์ฌ ํ๋กํ์ผ๋ง.
2์ฐจ ์คํ: ํน์ similarity ๊ฐ์ ๊ธฐ์ค์ผ๋ก ๋ ์ด์ด๋ฅผ ์ ํ์ ์ผ๋ก ์คํต(skip)ํ๊ณ ์ฑ๋ฅ(GPT score) ํ์ธ.
๊ฒฐ๊ณผ:
- LeastSkip: IO similarity๊ฐ ๋ฎ์ ๋ ์ด์ด๋ฅผ ์คํต โ ์ฑ๋ฅ ๊ธ๊ฒฉํ ํ๋ฝ (1๊ฐ๋ง ์คํตํด๋ ์ ์ < 1.0).
- MostSkip: IO similarity๊ฐ ๋์ ๋ ์ด์ด๋ฅผ ์คํต โ 1, 3, 5๊ฐ ์คํต ์์๋ ์ ์ 8.9, 6.1, 4.2 ์ ์ง.
โ IO similarity๊ฐ ๋์์๋ก ์คํตํด๋ ์ฑ๋ฅ ์์์ด ์ ๋ค.
Existing Layer-wise Skipping Strategies

- Early Skipping
ํญ์ ์์ชฝ ๋ช ๊ฐ ๋ ์ด์ด๋ฅผ ๊ณ ์ ์ ์ผ๋ก ์คํต.
- ์ฅ์ : ๋ฐฐ์น(batch) ์ฐ์ฐ ํธํ์ฑ ์ข์.
- ๋จ์ : ์๋ถ๋ถ์ด ์ค์ํ ๊ฒฝ์ฐ ์ฑ๋ฅ ์์ค ๊ฐ๋ฅ.
- Periodic Skipping
์ผ์ ๊ฐ๊ฒฉ์ผ๋ก ์ค๊ฐ ๋ ์ด์ด๋ฅผ ์คํต (์: 4๊ฐ๋ง๋ค 1๊ฐ ์คํต).
- ์ฅ์ : ๋ฐฐ์น ์ฐ์ฐ ๊ฐ๋ฅ.
- ๋จ์ : ๋ ์ด์ด ์ค์๋์ ๋ณ๋์ฑ์ ๋ฐ์ํ์ง ๋ชปํจ.
- Early Exit
๊ฐ ๋ ์ด์ด ๊ณ์ฐ ํ ์กฐ๊ฑด(์: confidence)์ด ์ถฉ์กฑ๋๋ฉด ๋ค ๊ณ์ฐ ์๋ต.
- ์ฅ์ : ๋ถํ์ํ ์ฐ์ฐ ์ ์ฝ.
- ๋จ์ : ์ค์ํ ๋ท๋ถ๋ถ ๋ ์ด์ด๋ฅผ ๊ฑด๋๋ธ ์ํ, classifier ํ์ต์ด๋ ๋ชจ๋ธ ํ์ธํ๋ ํ์.
Motivation
๊ธฐ์กด ๋ ์ด์ด ์คํคํ ์ ๋ต๋ค์ด ์ฅ๋ฌธ ๋งฅ๋ฝ ์ถ๋ก ์์ ํ๊ณ๊ฐ ์๋ ์ด์
Observation 1:
The layer importance distribution exhibits significant variation across diverse models.
๋ชจ๋ธ์ ๋ฐ๋ผ ๋ ์ด์ด ์ค์๋ ๋ถํฌ๊ฐ ํฌ๊ฒ ๋ค๋ฅด๋ค.

- ๊ธฐ์กด layer-wise skipping ๊ธฐ๋ฒ์ โํญ์ ๊ฐ์ ์์น์ ๋ ์ด์ดโ๋ฅผ ๊ฑด๋๋ฐ๋๋ฐ,
์ด๋ ๊ฒ ํ๋ฉด ๋ชจ๋ธ๋ณ ์ค์๋ ํจํด ์ฐจ์ด๋ฅผ ๋ฌด์ํ๊ฒ ๋ผ์ ์ ์์ฑ์ด ๋จ์ด์ง.
- ๋ฐ๋ผ์ ๋ชจ๋ธ๋ณ๋ก ๋ง์ถคํ(Adaptive) ์คํต ์ ๋ต์ด ํ์.
Observation 2:
The importance distributions of attention and FFN modules are different.
์ดํ ์ (Attention)๊ณผ FFN(Feed-Forward Network) ๋ชจ๋์ ์ค์๋ ๋ถํฌ๊ฐ ์๋ก ๋ค๋ฅด๋ค.

- Transformer ๋ ์ด์ด๋ ๋ณดํต Attention sublayer์ FFN sublayer๋ก ๊ตฌ์ฑ๋จ.
Attention sublayer์ FFN sublayer๊ฐ ๋ญ์ผ?
Attention sublayer:
๋ฌธ์ฅ ์ ๋จ์ด๋ค์ด ์๋ก๋ฅผ ์ผ๋ง๋ ์ฐธ๊ณ ํด์ผ ํ๋์ง ๊ณ์ฐํ๋ ๋ถ๋ถ
โ "์ด ๋จ์ด๊ฐ ์ ๋จ์ด์ ์ผ๋ง๋ ๊ด๋ จ ์๋์ง" ์ ์๋ฅผ ๋งค๊ธฐ๊ณ , ์ค์ํ ์ ๋ณด์ ๋ ์ง์คํ๋๋ก
FFN (Feed-Forward Network) sublayer:
Attention์์ ๋ชจ์์จ ์ ๋ณด๋ฅผ ๊ฐ ๋จ์ด๋ณ๋ก ๋ฐ๋ก ๊ฐ๊ณตํ๋ ์์ ์ ๊ฒฝ๋ง
โ "์ง์คํด์ ๋ชจ์ ์ ๋ณด"๋ฅผ ๋ ๋ณต์กํ๊ฒ ๋ณํํ๊ณ , ๋ค์ ๋จ๊ณ๋ก ๋๊ฒจ์ค
- ์ด ๋์ IO similarity๋ฅผ ๋ฐ๋ก ๋ถ์ํด ๋ณด๋ ๋ถํฌ๊ฐ ๋ค๋ฅด๊ฒ ๋์ด.
- Attention: ์ต๊ณ IO similarity๊ฐ ๊ฑฐ์ 0.97์ผ๋ก ๋๊ณ , ๊ฐ์ด ์๋ก ๋น์ทํ๊ฒ ๋ชจ์ฌ ์์.
- FFN: ์ต๊ณ IO similarity๊ฐ 0.95 ์ ๋์ด๊ณ , ๊ฐ์ด ํผ์ ธ ์์.
โ Attention์ FFN๋ณด๋ค ์คํตํ ํ๋ณด๊ฐ ๋ง์
โ ๊ธฐ์กด ๋ฐฉ๋ฒ์ฒ๋ผ ๋ ์ด์ด ์ ์ฒด๋ฅผ ํ ๋ฒ์ ์คํตํ๋ ๊ฑด ๋นํจ์จ์ ์ด๊ณ ,
sublayer ๋จ์(Attention, FFN ๊ฐ๊ฐ)๋ก ๋ฐ๋ก ์คํต ์ฌ๋ถ๋ฅผ ๊ฒฐ์ ํ๋ ๊ฒ ๋ ํจ๊ณผ์ ์.
Observation 3:
The importance distribution of sublayers in the prefilling and decoding phases have similar trends but different fluctuation degrees.
ํ๋ฆฌํ๋ง๊ณผ ๋์ฝ๋ฉ ๋จ๊ณ์์ ์๋ธ๋ ์ด์ด ์ค์๋ ๋ถํฌ์ ๊ฒฝํฅ์ด ์ ์ฌํ์ง๋ง, ๋ณ๋ ์ ๋๋ ๋ค๋ฅด๋ค.

- Prefilling: ์ฒ์ ๋ฌธ๋งฅ์ ์ฝ์ด๋ค์ด๋ ๋จ๊ณ.
- Decoding: ํ ํฐ์ ํ๋์ฉ ์์ฑํ๋ ๋จ๊ณ.
๋ ๋จ๊ณ์์ Attention๊ณผ FFN์ IO similarity ๋ณํ๋ฅผ ๋น๊ต:
- ์ ์ฒด์ ์ธ ์ถ์ธ๋ ๋น์ท โ ๋ ๋จ๊ณ์์ ๋น์ทํ ์คํต ์ ๋ต์ ๊ณต์ ํ ์ ์์.
- ํ์ง๋ง FFN sublayer๋ IO similarity๊ฐ Decoding ๋จ๊ณ์์ Prefilling ๋๋ณด๋ค ๋์
โ Decoding ๋จ๊ณ์์ FFN sublayer๋ฅผ ๋ ๋ง์ด ์คํตํด๋ ์ฑ๋ฅ ์ํฅ์ด ์ ์ ๊ฐ๋ฅ์ฑ์ด ํผ.
Methodology
Sublayer Skipping during Prefilling with Offline Importance Learning
์ Prefilling ๋จ๊ณ์์ ์คํต์ด ์ค์ํ๊ฐ?
- Prefilling์ ๊ธด ์
๋ ฅ์ ์ฒ์ ์ฝ๋ ๋จ๊ณ๋ผ์:
- TTFT (Time To First Token)๊ฐ ๊ธธ์ด์ง
- KV ์บ์ ์ฌ์ฉ๋์ด ๋ง์
- ๋ชจ๋ธ๋ง๋ค IO similarity ๋ถํฌ๊ฐ ๋ฌ๋ผ์, ๊ณ ์ ๋ ๋ ์ด์ด ์คํต์ ์ต์ ์ด ์๋.
- ๋ฌธ์ : Prefilling ์์ ์ ์๋ ์ค์๋์ ๋ํ ์ฌ์ ์ ๋ณด๊ฐ ์์ โ adaptive skipping์ด ์ด๋ ค์.
Insight

- hit rate = unimportant sublayer(= skip target)๋ฅผ ์ผ๋ง๋ ์ ๋ง์ท๋์ง ์ ํ๋
- skipํ sublayer ๊ฐ์ : 4, 6, 10
- ๊ทธ ์ค์์ ์ผ๋ง๋ ์ผ์นํ๊ฒ ์ ํ๋์๋์ง(hit)๋ฅผ ํ๊ท : 3.76, 4.86, 9.31
์ฌ๋ฌ ๋ฐ์ดํฐ์ ๊ณผ LLaMA3.1-8B-128k ๋ชจ๋ธ๋ก Prefilling IO similarity๋ฅผ ์ธก์
โ ํ ๋ฐ์ดํฐ์ ์์ ์ธก์ ํ ํ๊ท IO similarity๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์์ ์คํต ๋์์ ์์ธกํด๋ Hit Rate๊ฐ ๋์
- Prefilling์์ ๊ณผ๊ฑฐ IO similarity โ ํ์ฌ ์คํต ๋์ ์์ธก์ด ๊ฐ๋ฅํ๊ณ , ๋ฐ์ดํฐ์ ๊ฐ ๊ณต์ ๋ ๊ฐ๋ฅ.
Offline Importance Learning Workflow

- ๋ฐ์ดํฐ ์์ง
- ์ฌ๋ฌ ๊ฐ์ inference task(ํ๋กฌํํธ)๋ฅผ ์ค๋น
- ๊ฐ task๋ ๊ธธ์ด๊ฐ ๋ค๋ฅผ ์ ์๊ณ , ๋ชจ๋ธ์๋ M๊ฐ์ transformer ๋ ์ด์ด(๊ฐ๊ฐ attention + FFN sublayer)๊ฐ ์์
- ๊ฐ sublayer(์: attention 1, FFN 1, attention 2, FFN 2, โฆ)๋ณ๋ก ์ ๋ ฅ ๋ฒกํฐ vs ์ถ๋ ฅ ๋ฒกํฐ์ ์ ์ฌ๋(IO similarity)๋ฅผ ์ธก์
- ๋ชจ๋ task์ ํ ํฐ๋ง๋ค ๊ฐ์ ๋ชจ์ ํ๊ท IO similarity๋ฅผ ๊ตฌํจ โ ์ด๊ฒ โ์ผ๋ง๋ ๋ ์ค์ํ์งโ๋ฅผ ์๋ ค์ค
a_{jit} = ์ ๋ ฅ ๋ฒกํฐ, b_{jit} = ์ถ๋ ฅ ๋ฒกํฐ.
- Deviation ๋ณด์ (Scale factor)
- ๋จ์ similarity๋ง ์ฐ๋ฉด ์ ๋ ฅ๊ณผ ์ถ๋ ฅ ๋ฒกํฐ ํฌ๊ธฐ ์ฐจ์ด ๋๋ฌธ์ ์ฝ๊ฐ์ ์ค์ฐจ๊ฐ ์๊น
- ๊ทธ๋์ ๊ฐ sublayer์ ๋ํด ์
๋ ฅ๊ณผ ์ถ๋ ฅ ๋ฒกํฐ ํฌ๊ธฐ ๋น์จ์ ํ๊ท ๋ด์ ๋ณด์ ๊ณ์(scale factor)๋ฅผ ๊ณ์ฐ
๋ณด์ ๋ ์ถ๋ ฅ ๋ฒกํฐ:
- Sublayer ์ค์๋ ์ ๋ ฌ
- ๋ชจ๋ sublayer(attention+FFN, ์ด 2M๊ฐ)์ ๋ํด ํ๊ท similarity๋ฅผ ๊ตฌํ์ผ๋
- Similarityโพ ๊ฐ์ด ๋์ ์์(= ๋ ์ค์ํ ์์)๋ก ์ ๋ ฌ
- ๊ฐ์ ๋น์จ(Acceleration ratio) ฮฑ๋ก ์คํต๋ ์กฐ์
- ์ ์ฒด ์๋ โ ์ฑ๋ฅ trade-off๋ฅผ ์ ์ดํ๊ธฐ ์ํด acceleration ratio ฮฑ๋ฅผ ์ค์ .
- ฮฑ๊ฐ ํฌ๋ฉด ๋ ๋ง์ด ์คํต, ์์ผ๋ฉด ๋ ์คํต.
- ์ต์ข ์ ์ผ๋ก ์์(๋ ์ค์ํ) 2m๊ฐ์ sublayer๋ฅผ ์คํต ๋์์ผ๋ก ์ ํ.
- Prefilling ์ : ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ก ๋ฏธ๋ฆฌ sublayer ์ค์๋๋ฅผ ํ์ต.
- Prefilling ์ค: IO similarity๋ฅผ ์๋ก ์ธก์ ํ ํ์ ์์ด, ๊ณผ๊ฑฐ ํ๊ท ๊ฐ + ๋ณด์ ์น๋ก ์คํต ๋์ ๊ฒฐ์ .
Extra FFN Sublayer Skipping during Decoding with Online Importance Learning
Prefilling ๋จ๊ณ์์ ์ด๋ฏธ ์คํตํ sublayer๋ฅผ ์ ํ์ง๋ง, Decoding ์ค์ ์ค์๊ฐ ๋ฐ์ดํฐ(online learning)๋ฅผ ํ์ฉํด ๋ ๋ง์ FFN์ ๊ฑด๋๋ฐ์ด ์๋๋ฅผ ๋์ด๋ ์ ๋ต
Decoding ๋จ๊ณ์์ FFN์ ๋ ์คํตํ ์ ์๋?
- Observation 3์ ๋ฐ๋ฅด๋ฉด:
- Prefilling๊ณผ Decoding์ IO similarity ์ถ์ธ๋ ๋น์ทํจ โ Prefilling์์ ๊ณจ๋ผ๋ธ ์คํต ํ๋ณด๋ฅผ Decoding์์๋ ์ฌ์ฌ์ฉ ๊ฐ๋ฅ.
- ํ์ง๋ง FFN sublayer๋ Decoding์์ IO similarity๊ฐ ๋ ๋์ โ ์ฆ, ๋ ์ค์ํ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ ๋ ๋ง์ด ์คํต ๊ฐ๋ฅ.
Insight
Decoding์ด ์์๋ ๋, ์ฒ์ ๋ช ๊ฐ ํ ํฐ์ IO similarity๋ง ์ธก์ ํด๋ ์ดํ ์์ฑ์์ ์ค์ํ sublayer๋ฅผ ์ ์์ธก ๊ฐ๋ฅ

- hit rate = unimportant sublayer(= skip target)๋ฅผ ์ผ๋ง๋ ์ ๋ง์ท๋์ง ์ ํ๋
- ์ด๊ธฐ window size๋ฅผ ๋๋ฆด์๋ก hit rate๊ฐ ์ฌ๋ผ๊ฐ๋ค ์ด๋ ์ง์ ์ดํ ๊ฑฐ์ ์ผ์ .
โ ๊ตณ์ด ๋ชจ๋ ํ ํฐ์ ๋ถ์ํ ํ์ ์์ด, ์ด๋ฐ P๊ฐ์ ํ ํฐ๋ง ๋ณด๊ณ ๊ฒฐ์ ํด๋ ์ถฉ๋ถ.
Online Importance Learning Workflow

- Input
- Prefilling์์ ์ด๋ฏธ ์ ํ โ์คํต ํ๋ณด ์งํฉ(skipped)โ
- Decoding ์ด๋ฐ P๊ฐ ํ ํฐ
- ์ด๊ธฐ ์๋์ฐ๋ก FFN ์ค์๋ ์ธก์
- ๊ฐ FFN ์๋ธ๋ ์ด์ด j์ ๋ํด, ์ฒ์ P๊ฐ์ ๋์ฝ๋ฉ ํ ํฐ์ ๋ํ IO similarity ํ๊ท ์ ๊ณ์ฐ
- ajt = ์ ๋ ฅ ๋ฒกํฐ, bjt = ์ถ๋ ฅ ๋ฒกํฐ
- ๊ฐ FFN ์๋ธ๋ ์ด์ด j์ ๋ํด, ์ฒ์ P๊ฐ์ ๋์ฝ๋ฉ ํ ํฐ์ ๋ํ IO similarity ํ๊ท ์ ๊ณ์ฐ
- Prefilling ๊ฒฐ๊ณผ์ ๋น๊ต
- Prefilling์์ ์คํต๋ sublayer๋ค์ similarity ์ค ์ต์๊ฐ์ ฮฒ๋ก ์ค์
- โ์ด ๊ฐ ์ด์์ด๋ฉด โ๋ ์ค์ํ ์ถโ์ ์ํ๋ฏ๋ก, ๋์ฝ๋ฉ์์๋ ์ถ๊ฐ๋ก ์คํตํด๋ ๊ด์ฐฎ๋คโ
- index: ๋ชจ๋ FFN sublayer ์ธ๋ฑ์ค ์งํฉ.
- skipped: Prefilling์์ ์ด๋ฏธ ์คํตํ๋ sublayer ์งํฉ.
- ์ถ๊ฐ FFN ์คํต ์ ๋ณ
- ๋ชจ๋ FFN ์๋ธ๋ ์ด์ด ์ธ๋ฑ์ค ์งํฉ์ ํ์ผ๋ฉด์ ๏ปฟ โฅ ฮฒ ์ธ FFN sublayer๋ฅผ ์ฐพ๊ธฐ
- ์ต์ข
์คํต ์งํฉ ์์ฑ
- Prefilling์์ ์คํตํ sublayer + ์ถ๊ฐ๋ก ์ฐพ์ FFN sublayer๋ฅผ ํฉ์ณ ์ต์ข ์คํต ์งํฉ ์์ฑํ๊ธฐ
- skipped^(P) = skipped โช EXTRA_SKIP
- ๋ณด์ (Scale Compensation)
- Prefilling์์ ๋ฏธ๋ฆฌ ๊ตฌํด๋ ํ๊ท ์ค์ผ์ผ ๊ฐ
Scaleโพj๋ฅผ ์ด์ฉํด ์ ๋ ฅ ๋ฒกํฐ๋ฅผ ๋ณด์
- Prefilling์์ ๋ฏธ๋ฆฌ ๊ตฌํด๋ ํ๊ท ์ค์ผ์ผ ๊ฐ
- ์ถ๊ฐ ๊ฐ์: Prefilling๋ง ์ผ์ ๋๋ณด๋ค ๋ ๋ง์ FFN์ ์คํต โ ๋ ํฐ ์๋ ํฅ์
- ์ฑ๋ฅ ์ ์ง: ์ด๊ธฐ ํ ํฐ์ผ๋ก ์ถ์ ํ๊ธฐ ๋๋ฌธ์ ์ฑ๋ฅ ์ ํ๋ฅผ ์ต์ํ
- ์ค์๊ฐ ์ ์: ํ์ฌ ๋ฌธ๋งฅ(context)์ ๋ง์ถฐ ๋์ ์ผ๋ก ๊ฒฐ์
โ Decoding ์ด๊ธฐ์ ํ ๋ฒ ๋ ์ ๋ฐ์ดํธํด์, ๋ ์ค์ํ FFN์ ๊ฑด๋๋ฐ๋ ๋ฐฉ์
Experiments
Setting
- MFieldQA, TREC, TriviaQA โ ์์/์ค๊ฐ ํฌ๊ธฐ ๋ฐ์ดํฐ์ โ ์ธ๋ถ ๋ถ์์ฉ (ATTN vs FFN ๋ณ hit rate ๋ฑ)
- GovReport, MultiNews โ ๊ธด ๋ฌธ๋งฅ ์์ฝ ๋ฐ์ดํฐ์ โ End-to-End ๊ฐ์ ์คํ์ฉ (์ค์ ์ฑ๋ฅ + ์๋)
- Hardware: NVIDIA A100 GPUs (80GB)
- KV cache enabled
- Prefilling phase์์ acceleration ratio ฮฑ๋ ์ผ๋ง๋ ๋ง์ sublayer๊ฐ skip๋๋์ง ๋ณด๊ณ ๊ฒฐ์
- Decoding phase online learning์์ ์ฒซ ํ ํฐ ๊ฐ์๋ ์ค์๋ ๋ณด๊ณ ์ถ์ ํจ (P = 20, 50, 100)
Results of Prefilling Tasks, Decoding Tasks

F1 : QA๊ฐ์๊ฑฐ์์ ์ ๋ฐ๋, ์ฌํ์จ ์กฐํํ๊ท
ACC : ๋ถ๋ฅ ๋ฌธ์ ์์ ์ ํ๋
Rouge-L : ์์ฑ ํ์คํฌ์์ ์ฐธ์กฐ ์์ฝ๊ณผ ๋ชจ๋ธ ์ถ๋ ฅ ๊ฐ์ longest common subsequence ๊ธฐ๋ฐ ์ ์ฌ๋
SU (Speedup) : ๊ธฐ์กด ๋๋น ์๋ ํฅ์๋น์จ
์ค์ Speedup๋ ์ AdaSkip์ด ๋ค๋ฅธ skip ๋ณด๋ค ๋น ๋ฅผ๊น??
โ ์ง์ง ์ธ๋ชจ์๋ sublayer๋ง ๊ณจ๋ผ๋ด ๊ฑด๋๋ โ ๋ ๋ง์ ์ฐ์ฐ ์ ์ฝ + ์ฑ๋ฅ ์ ์ง
โAdaSkip achieves superior speedup compared with the state-of-the-art skipping strategies, as it adaptively skips the most unimportant sublayers in both prefilling and decoding phases without requiring additional training.โ
Results of End-to-End Testing

์ค์ ๋ก ์ ์ฒด๋ฅผ ์คํํด๋ AdaSkip์ด ์ ํ๋๊ฐ ๋์
Limitation & Future Work
Prefilling ๋จ๊ณ์์ ์ฌ์ ๋ฐ์ดํฐ๊ฐ ํ์ํจ
์ฒ์ ์คํํ ๋๋ ์ด๋ค ๋ ์ด์ด๋ฅผ ๊ฑด๋๋ธ์ง ์ ์ ์์ด์ ๊ณผ๊ฑฐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ธกํด์ผ ํ๋ ๊ตฌ์กฐ.
โ Prefilling์์ ๋ ์ ๊ตํ zero-shot layer importance predictor ์ค๊ณ
๋ชจ๋ธยท๋ฐ์ดํฐ์ ํนํ ์ ์์ฑ ๋ฌธ์
์์ ํ ์๋ก์ด ๋ชจ๋ธ์ด๋ ๋๋ฉ์ธ์ ์ ์ฉํ ๋๋ ์์ง ํ๊ณ๊ฐ ์๋ค
โ Dataset ๊ฐ transfer๋ฅผ ๋์ด cross-model generalization๊น์ง ํ์ฅ
Not adaptive parameter ฮฑ (acceleration ratio), P (online learning window size)
์คํ์๊ฐ ฮฑ์ P๋ฅผ ๊ณ ์ ํด์ ์ค์ ํด์ผ ํจ โ ๋ฐ์ดํฐ์ ์ด๋ ํ์คํฌ๊ฐ ๋ฐ๋๋ฉด ์ต์ ๊ฐ์ด ๋ฌ๋ผ์ง
โ ๋ชจ๋ธ์ด ์ค์ค๋ก ฮฑ์ P๋ฅผ ์ํฉ์ ๋ง๊ฒ ์กฐ์ ํ ์ ์๋ ๋ฉ์ปค๋์ฆ ๊ฐ๋ฐ
(reinforcement learning, Bayesian optimization, online feedback loop ๋ฑ)
โ ํ์คํฌ ๋์ด๋๋ ๋ฌธ๋งฅ ๊ธธ์ด์ ๋ฐ๋ผ dynamicํ๊ฒ skip ratio๋ฅผ ์กฐ์ โ ๋ ๋ฒ์ฉ์ ์ด๊ณ ์์ ์ ์ธ ์ฑ๋ฅ ํ๋ณด.
Q&A
๋ ผ๋ฌธ Presentation ๋ฐํ ์ค ์ ๋๋ก ๋ต๋ณ ๋ชปํ Q&A
GPT Score
๊ฐ๋ ฅํ ํ๊ฐ์ ๋ชจ๋ธ(GPT-4, Claude, Gemini ๋ฑ)์ ๋ถ๋ฌ์์
- ๋ฌธ์ ์ ํ๋ณด ๋ต๋ณ์ ๊ฐ์ด ์ ์
- ํ๊ฐ ๋ชจ๋ธ์ด ์ด๋ ์ชฝ์ด ๋ ๋ซ๋ค๊ณ ํ๋จํ๊ฑฐ๋ ์ ์ ๋งค๊ธฐ๊ธฐ
โ ์ฌ๋์ด ์ง์ ํ๊ฐํ๋ ๊ฒ๋ณด๋ค ๋น ๋ฅด๊ณ ์ผ๊ด์ฑ ์์
Skip ๋ฐฉ๋ฒ์ ์ด์ ๊ฒฐ๊ณผ๊ฐ ํ์ํ ํ ๋ฐ ์ด๋ป๊ฒ ํ๋๊ฑฐ์ง?
Early Exit์ ์ข ๋ฃํ๋๊ฑฐ๋๊น ์๊ด ์๋๋ฐ, Skip ๋ฐฉ๋ฒ์ ์ด์ ๊ฒฐ๊ณผ๊ฐ ํ์ํ ํ ๋ฐโฆ
์ด ๋ ผ๋ฌธ์์ Scaling ํ๋ค๋ ๊ฒ์ ์๊ณ ์์์ด์, ๊ทธ๊ฒ ์ผ๋ฐ์ ์ธ๊ฑด์ง ์ด ๋ ผ๋ฌธ์์ ๋์ ํ๊ฑด์ง ํ์คํ์ง ์์์๋๋ฐ, ์ด ๋ ผ๋ฌธ์์ ๋์ ํ ๊ฑฐ์๋ค
Identity Mapping (์ ๋ ฅ ๊ทธ๋๋ก ์ ๋ฌ)
- ์คํต๋ ๋ ์ด์ด๋ ์๋ฌด ๊ณ์ฐ๋ ํ์ง ์๊ณ , ์ ๋ ฅ์ ๊ทธ๋๋ก ๋ค์ ๋ ์ด์ด๋ก ๋๊น
- Transformer์์
output = input + f(input)์์f(input) = 0
- ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ ์ด๊ฑธ ์ผ์. (SkipDecode, Unified Layer Skipping)
Scaling (์ ๋ ฅ์ ๋ณด์ ๊ณ์ ๊ณฑํ๊ธฐ) - AdaSkip
- ๋จ์ํ ์ ๋ ฅ aj๋ฅผ ์ถ๋ ฅ ๋์ ์ฐ๋ฉด ํฌ๊ธฐ ์ฐจ์ด ๋๋ฌธ์ deviation(ํธ์ฐจ)์ด ์๊น
- ๊ทธ๋์ ๊ฐ sublayer์ ๋ํด ์
๋ ฅ๊ณผ ์ถ๋ ฅ ๋ฒกํฐ ํฌ๊ธฐ ๋น์จ์ ํ๊ท ๋ด์ ๋ณด์ ๊ณ์(scale factor)๋ฅผ ๊ณ์ฐ
๋ณด์ ๋ ์ถ๋ ฅ ๋ฒกํฐ:
Prefilling์ ๋ณ๋ ฌ์ด ๊ฐ๋ฅํด์ Decoding๋ณด๋ค ๊ธ๋ฐฉ ํ์ง ์๋?
๊ทผ๋ฐ Prefilling์ ๋ณ๋ ฌ์ด ๊ฐ๋ฅํด์ Decoding์ด ๋ ์ค๋๊ฑธ๋ฆฌ์ง ์์? ์ Prefilling์์ ๊ตณ์ด?
๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ Decoding์์ skipํ๋ ๋ฐฉ์์ ์ฑํํ์
- Prefilling: ๋ณ๋ ฌ์ด๋ผ ์๋ ์์ฒด๋ ๋น ๋ฅด์ง๋ง, ๊ณ์ฐ๋๊ณผ ๋ฉ๋ชจ๋ฆฌ ์๋น๊ฐ ๋งค์ฐ ํผ
โ TTFT(์ฒซ ํ ํฐ ์ง์ฐ)๊ฐ ๊ธธ์ด์ง
โ ์ฌ์ฉ์ ์ ์ฅ์์๋ "์ฒซ ์๋ต๊น์ง ๊ธฐ๋ค๋ฆฌ๋ ์๊ฐ"์ด ๊ธธ์ด์ง
- Decoding: ํ ํฐ์ด ํ๋์ฉ ๋์ค๋ฉด์ ์ฒด๊ฐ ์๋๋ ๋น ๋ฅด๊ฒ ๋ณด์ผ ์ ์์ (streaming)
Prefill์์ Skip
โ ๋ง์ ์ ๋ ฅ ํ ํฐ ร ๋ง์ ๋ ์ด์ด๋ผ๋ฉด, sublayer ํ๋๋ง ์คํตํด๋ ์ ์ฒด ๊ณ์ฐ๋์ ํฌ๊ฒ ์ค์ผ ์ ์์
โ ์ฆ, ํญ๋ฐ์ ์ธ ์ฐ์ฐ๋์ด ๋ค์ด๊ฐ๋ ์ง์ ์ด๋ผ skip ํจ์จ์ด ํผ
Skip Decode, Unified Skipping์ ์ด๋ฏธ ์๋๊ฑด๊ฐ?
์ด๋ฏธ ์๋๊ฑฐ ์ด๊ฑด๊ฐ? ์๋๋ฉด ๋ญ๊ฐ ๊ทธ skip์ ๋ง๊ฒ ๋ง๋ ๊ฑด๊ฐ?
๋ง ์ ํ๋ 0.0๋ ์๋๋ฐ ์ ๋๋ก ์ธก์ ํ๊ฒ ๋ง์?
early skipping์ผ๋ก SkipDecode, periodic skipping์ผ๋ก Unified Skipping ์ baseline์ผ๋ก ์ฌ์ฉ
๊ทผ๋ฐ, ์ด ๊ธฐ๋ฒ๋ค์ ์๋ Decoding๋จ๊ณ์ฉ์
๋์ฝ๋ฉ ํ์คํฌ๋ ์๋ ์ค๊ณ๋๋ก, Prefill์ด๋ end-to-end ํ์คํฌ๋ ๊ฐ์ ์คํต ๊ท์น์ ํ์ฅ ์ ์ฉ

โIts Vicuna Rouge-L scores for the two summarization tasks fall below 4.0, possibly due to the accumulation of errors in the autoregressive process.โ
๊ทธ๋ฆฌ๊ณ Decoding์์๋ ๊ฝค ์ฐจ์ด๊ฐ ํฐ๋ฐ, ์คํ ๋ฆฌ๊ทธ๋ ์๋ธ ์์ฑ ๊ณผ์ ์์์ ์ค์ฐจ ๋์ (accumulation of errors) ๋๋ฌธ์ผ ์ ์๋ค๊ณ ์ธ๊ธํจ
โ Decoding์ฉ ๋ฐฉ์์ ์ต์ง๋ก ๊ท์น์ ํ์ฅํด์ ์ค์ฐจ๊ฐ ๋์ ๋์ด ์ฑ๋ฅ์ด 0.0์ฒ๋ผ ๋ฎ๊ฒ ๋์จ ๊ฒ์ด๋ค!
์ Offline Learningํ ๋ ๋ค๋ฅธ Dataset์ผ๋ก ํด๋ ๋น์ทํด? Observation์๋ ์๋๋ผ๋ฉฐ

์คํดํ๋๋ฐ Observation1์์๋ Model๋ณ๋ก ์ฐจ์ด ํฌ๋ค๊ณ ํ์!

Offline Importance Learning during Prefilling ์์
๋ค๋ฅธ Dataset์ผ๋ก ์ธก์ ํด๋ ๊ด์ฐฎ๋ค๊ณ ํ์!
โ Limitation : Model๋ณ๋ก ์ฐจ์ด๊ฐ ํฌ๋๊น ๊ฒฐ๊ตญ ๋ชจ๋ธ์ ๋ฐ๊พผ๋ค๋ฉด Offline Learning์ผ๋ก ๋ ํ์ตํด์ผํจ
