| ArXiv | https://arxiv.org/abs/2508.07871 |
|---|---|
| Author | Yanshu Li, Jianjiang Yang, Zhennan Shen, Ligong Han, Haoyan Xu, Ruixiang Tang |
| Affiliation | 1Brown University 2University of Bristol 3MIT-IBM Watson AI Lab 4University of Southern California 5Rutgers University |
Key Differentiator
- query-cross attention์ด decoder layer ์งํ ์ค, ํนํ shallow layers (6~10) ์ดํ์ ์ฆ๊ฐํ๋ ํ์์ ๊ด์ฐฐ
- query ๋ง์ง๋ง ํ ํฐ์ด image token์ ์ฃผ๋ attention์ layer ๊ฐ ์ฆ๊ฐ๋์ relevance ์ ํธ๋ก ์ฌ์ฉํ์ฌ, query-guided reasoning ๊ณผ์ ์์ ์๋กญ๊ฒ ์ค์ํด์ง ํ ํฐ์ ์ ํํ๋ ๋ฐฉ์
- query ๊ธฐ๋ฐ attention๊ณผ representation similarity๋ฅผ ๊ฒฐํฉํด ์ด๋ฏธ์ง ์ปจํ ์คํธ ํ ํฐ์ ์ค์๋๋ฅผ ์ฌํ๊ฐํ๊ณ , In-Context Learning์ ๋ ์ ํฉํ ์ํ์ค๋ฅผ ์ฌ๊ตฌ์ฑ
Why I chose this paper?
- Motivation for token-level optimization
- GOLD๊ฐ ๋จ์ํ Coarse-to-fine ์๊ณ ๋ฆฌ์ฆ ๊ธฐ๋ฐ์ด๋ผ token-level optimization์ ์ํ์.
- Interest in sequential GUI settings
- GOLD single-task setting ํ๊ฒ์ด๋ผ์ sequential GUI tasks๋ก ํ์ฅํ๊ธฐ๋ฅผ ์ํ์.
- I want ideas for efficient computation under multi-image inputs.
Abstract
Large Vision-Language Models (LVLM)์์ ์ด๋ฏธ์ง ํ ํฐ์ด sparseํ๊ธฐ ๋๋ฌธ์ reasoning์ ๊ธฐ์ฌํ์ง ์๋ ํ ํฐ์ด ๋ค์๋ฅผ ์ฐจ์งํจ. โ cost ์๋น
๊ทธ๋์ image token pruning์ ์ฌ์ฉํจ.
- ํ์ง๋ง, single-image task์ ์ด์ ์ด ๋ง์ถฐ์ง
- multimodal in-context learning ์ํฉ์ ๊ณ ๋ คํ์ง ์์.
- ๊ธฐ์กด ํ๋ฃจ๋ ๊ธฐ๋ฒ์ ๊ทธ๋๋ก ์ ์ฉํ๋ฉด ์ ํ๋ drop ๋ฐ์
์ด ๋ ผ๋ฌธ CATP์์๋ ๋ฉํฐ๋ชจ๋ฌ ICL ํ๊ฒฝ์ ํนํ๋์ด
- ์ด๋ฏธ์งโํ ์คํธโ์ด๋ฏธ์ง ๊ฐ์ ๋งฅ๋ฝ์ ๊ด๊ณ(context)๋ฅผ ๋ฐ์ํ๋๋ก ์ค๊ณ
- 2-stage progressive pruning ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉ
โ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ด๋ฏธ์ง ํ ํฐ์ 77.8% ์ ๊ฑฐํ๋ฉด์ ํ๊ท ์ ์ 0.6% ํฅ์, ์ถ๋ก ์ง์ฐ์๊ฐ 10.78% ๊ฐ์๋ฅผ ๋ณด์
Related Work
Large Vision-language Models (LVLMs)
- LLM์ด ๋ฐ์ ํ๋ฉด์ ์ด๋ฏธ์ง, ํ ์คํธ ๋์์ ์ฒ๋ฆฌํ๋ LVLM ํ์ฅ๋จ
- vision encoder, projector, and LLM decoder ๊ตฌ์กฐ
- ๋นํจ์จ
- ํ ์คํธ ํ ํฐ์ ๋นํด ์ ๋ณด ๋ฐ๋๊ฐ ํ์ ํ ๋ฎ์
- ์ฌ๊ฐํ ์ด๋ฏธ์ง ํ ํฐ ์ค๋ณต ๋ฐ์
In-context Learning (ICL)
- ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ ์์ด ์์ ๋ช ๊ฐ(ICDs)๋ง์ผ๋ก ์ฆ๊ฐ์ ์ธ ํ์คํฌ ์ ์
- Multi-model๋ก ํ์ฅ๋์ด ์ด๋ฏธ์ง + ํ
์คํธ ํฌํจํ๋ ICL์ด ์ค์ํด์ง
- ๊ทผ๋ฐ, ์ด๋ฏธ์ง ํ ํฐ๋ค์ ํ ์คํธ 3ํ ํฐ์ ๋นํด sparseํจ. (์ค์ํ ๋ถ๋ถ์ ๋ฐ๋๊ฐ ๋ฎ์)
- ๊ฐ ์์๋ง๋ค ์ด๋ฏธ์ง ์๊ณ , ์ฟผ๋ฆฌ์๋ ์ด๋ฏธ์ง ํฌํจ๋์ด์ ์ ๋ ฅ ๊ธธ์ด ๊ธธ์ด์ง
- ICL ์ฅ์ ์ด ๊ฐ๋ณ๊ณ ๋น ๋ฅด๋ค๋ ๊ฒ์ธ๋ฐ, ์ด๋ฏธ์ง ํ ํฐ ์ค๋ณต๋๋ฌธ์ ์คํ๋ ค ์ฅ์ ์ด ์ฝํ๋๋ค!
LLaVA-Next ์ฐ์ฐ๋ ์ฆ๊ฐ ์์
์ด๋ฏธ์ง 1์ฅ โ 576 tokens
VizWiz ๋ฐ์ดํฐ์ ์์ 2-shot ICL
- single-image inference ๋๋น 3.2ร ์ฐ์ฐ๋
- text-only inference ๋๋น 14.3ร ์ฐ์ฐ๋
Image Token Pruning
์ด๋ฏธ์ง ํ ํฐ ์ค๋ณต ๋ฌธ์ ํด๊ฒฐํ๋ ค๊ณ training-free image token pruning ์ฐ๊ตฌ๋ค์ด ๋์ด

3-shot in-context sequence
์์ 3๊ฐ์ ICD๋ฅผ ํ๋์ ์ํ์ค๋ก ๋ฃ๊ณ ๋ง์ง๋ง์ Query์ฃผ๋๊ฑฐ
Attention-based Image Token Pruning (b)
- LLM decoder ๋ด๋ถ์์ ์ด๋ฏธ์ง ํ ํฐ์ด ๋ฐ๋ attention weight๋ฅผ ์ค์๋์ ์งํ๋ก
- ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ์ค์ ๋ก ์ํธ์์ฉํ๋ ์ง์ ์ ํ์ฉ
- ๋จ์ : Attention shift ๋ฌธ์

์ฌ๊ธฐ์ X1I(์ด๋ฏธ์ง)์ X1T(ํ ์คํธ) ํ ํฐ์ด interleaved(๋ผ์๋ฃ๊ธฐ) ํ์์
์ด๋ฏธ์ง ํ ํฐ์ ํผ์น๋ฉด ํ๋จ ํ ํฐ์ด ํด๋น ํ ์คํธ ํ ํฐ๊ณผ ๊ฐ๊น์์ง.
Transformer attention์ ๊ฐ๊น์ด ์์น ํ ํฐ์ ํธํฅ๋จ (positional bias)
Diversity-based Image Token Pruning (c)
- Vision encoder + projector ์ดํ์, ํ ์คํธ์ ์ํธ์์ฉํ๋ Decoder์ ์ ๋ ฅ๋๊ธฐ ์ ๋จ๊ณ์์ ์ด๋ฏธ์ง ํ ํฐ๋ค ๊ฐ์ feature similarity๋ฅผ ๊ธฐ์ค์ผ๋ก ์ค๋ณต ํ ํฐ์ ์ ๊ฑฐ
- ๊ฐ ์ด๋ฏธ์ง๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์ฒ๋ฆฌ โ Figure(c)์์ ์ด๋ฏธ์ง๋ง๋ค 64๊ฐ ํ ํฐ์ ๊ท ๋ฑํ๊ฒ ๋จ๊น
- DivPrune https://arxiv.org/abs/2503.02175
- ๋จ์ : ๋ฉํฐ๋ชจ๋ฌ ICL์์ ํ์ํ cross-image, imageโtext, context-level interaction์ ํฌ์ฐฉX
โ ๋ฉํฐ๋ชจ๋ฌ ICL์์๋ fine-grained pruning ์คํจ๊ฐ ๋ฐ์
CATP (d)
๋ชจ๋ ICD๋ฅผ ํ๋์ context๋ก ๋ด
์ด๋ฏธ์ง๋ง๋ค ํ ํฐ์๊ฐ ๋ค๋ฆ (๊ธฐ์ฌ๋ ๊ธฐ๋ฐ์)
sequence ๋ด์ ๋ณต์กํ cross-modal interactions

Single-image setting์์๋ ๊ด์ฐฎ์๋ฐ, 4-shot์ผ๋ก ๊ฐ๋ฉด Random๋ณด๋ค๋ ๋ฎ๊ฑฐ๋ ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์
โ ๊ธฐ์กด ํ๋ฃจ๋ ๊ธฐ๋ฒ์ด ๋ฉํฐ๋ชจ๋ฌ ICL์๋ ๋ง์ง ์๋๋ค.
Related Work ๊ฒฐ๋ก
: ๋ฉํฐ๋ชจ๋ฌ ICL์์๋ โ๊ฐ๋ณ ์ด๋ฏธ์ง ๋ด ์ค์ ํ ํฐโ์ด ์๋๋ผ โ์ํ์ค ์ ์ฒด ๋งฅ๋ฝ์์ ๊ธฐ์ฌํ๋ ํ ํฐโ์ ์๋ณํ๋ ์๋ก์ด ๊ธฐ์ค์ด ํ์ํ๋ค!!
Method
Preliminary and Motivation
Multimodal In-Context Sequence

- query๋ ICD(in-context demonstration)์ฒ๋ผ image + text ์์ด๋ค.

- ์ด๋ฏธ์ง๊ฐ ํ ํฐ์ผ๋ก ๋ณํ๋๋ ๊ณผ์
- f : Vision encoder, g : projector
- S : ํ ํฐ์ (๋ชจ๋ธ๋ง๋ค, ์ ๋ ฅ ํด์๋๋ง๋ค ๋ฌ๋ผ์ง)
โ ์ด๋ฏธ์ง ํ ํฐ ์ค๋ณต์ด ๋ฐ์

์ต์ข
์ ์ผ๋ก ์ ์ฒด ํ ํฐ ์ํ์ค๋ ์ด๋ฐ์์ผ๋ก image๋ text๊ฐ interleaved (๋ผ์๋ฃ๋) ํํ๋ก ๋ฐฐ์น๋จ
๋ชจ๋ image token์ ๊ฐ์ ์ด๋ฏธ์ง ํ ํฐ๋ผ๋ฆฌ๋ง ์ํธ์์ฉํ๋ ๊ฒ์ด ์๋๋ผ,
๋ค๋ฅธ ์ด๋ฏธ์ง, ๋ค๋ฅธ ํ ์คํธ, query์ ๋์์ ์ํธ์์ฉ!!
๊ธฐ์กด Diversity-based pruning์ ์ด ํ์ด๋ฐ์ ์ผ์ด๋จ.
Decoder ์ด์ (image token feature๋ค๋ง ์กด์ฌ, text, query ์ ๋ณด ์์ โ image ๋ด๋ถ ์ ๋ณด๋ง์ผ๋ก)

์์ ์ํ์ค๊ฐ ์ด N-layer Transformer decoder์ ์ ๋ ฅ๋์ด
โ ์ฆ ๋ชจ๋ image token์ ๋ชจ๋ text token๊ณผ ์ฐ๊ฒฐ๋จ
๊ธฐ์กด Attention-based pruning์ ์ด ํ์ด๋ฐ์ ์ผ์ด๋จ.
decoder ๋ด๋ถ ํน์ layer์ ์ ์ฉ
โ attention์ layer๋ง๋ค ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๊ณ , interleaved ๊ตฌ์กฐ์์๋ attention shift ๋ฐ์
โ attention๊ฐ์ด ์ค์ ๊ธฐ์ฌ๋๊ฐ ์๋๋ค.

Figure3 (a)
diversity-based pruning
๊ฐ ์ด๋ฏธ์ง ๋ด๋ถ์์๋ง ํ ํฐ ์ค์๋๋ฅผ ํ๋จ โ ๋ค๋ฅธ ์ด๋ฏธ์ง, ํ ์คํธ, query ์ ๋ณด๋ฅผ ์ ํ ๋ณด์ง ๋ชปํจ
Figure3 (b), (c)
์ด๋ค attention์, ์ด๋ ๋ ์ด์ด์์ ์ฐ๋๋์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ ์์ ํ ๋ฌ๋ผ์ง๋ค
- FastV (๊ธฐ์กด ๋ฐฉ์)
- image token์ด ๋ชจ๋ ํ ํฐ์ผ๋ก๋ถํฐ ๋ฐ์ attention ์ดํฉ
- Intra-cross
- image token์ด ์๊ธฐ imageโtext pair ๋ด๋ถ์ ํ ์คํธ ํ ํฐ๋ค๋ก๋ถํฐ ๋ฐ์ attention
- โimageโtext alignment๊ฐ ์ค์ํ ์ด๊ธฐ ๋ ์ด์ด์์๋ ์ด๊ฒ ๋ ๋ง์ง ์์๊น?โ
- Query-cross
- image token์ด query sample์ ํ ํฐ๋ค๋ก๋ถํฐ ๋ฐ์ attention
- โICL์์๋ ๊ฒฐ๊ตญ query๊ฐ ์ค์ํ๋, query๊ฐ ์ฃผ๋ชฉํ๋ ํ ํฐ์ด ์ค์ํ์ง ์์๊น?โ
โ Static single-layer attention์ ๋ฉํฐ๋ชจ๋ฌ ICL์์ ํ ํฐ ์ค์๋๋ฅผ ์์ ์ ์ผ๋ก ๋ฐ์ํ์ง ๋ชปํจ
- attention shift๊ฐ ๋์ ๋์ด ๋์ attention โ ์ค์ํ token
โ ๋ฉํฐ๋ชจ๋ฌ ICL์์ ๋ณต์กํ๊ฒ ์ฝํ imageโtextโquery ์ํธ์์ฉ์์
์ ์ฒด ์ํ์ค์ reasoning์ ์ค์ง์ ์ผ๋ก ๊ธฐ์ฌํ๋ image token์ ์ด๋ป๊ฒ ์๋ณํ ์ ์๋๊ฐ?
Contextually Adaptive Token Pruning
Overview
- ๋ฉํฐ๋ชจ๋ฌ ICL์์๋ ์ฌ๋ฌ ์ด๋ฏธ์ง์ ํ ์คํธ๊ฐ ํ๋์ reasoning context๋ฅผ ํ์ฑ
โ image token์ ์ค์์ฑ์ ์ด๋ฏธ์ง ๋ด๋ถ, ๋จ์ผ attention ๊ฐ์ด ์๋ ์ํ์ค ์ ์ฒด ๋งฅ๋ฝ(context)์ด ์ค์
- Stage 1: Context-aware Coarse Pruning
- Stage 2: Query-guided Fine-grained Pruning
- Stage 1๋ง ์ฌ์ฉํ๋ฉด
- coarse pruning๊น์ง๋ง ๊ฐ๋ฅ
- fine-grained ์คํจ
- Stage 2๋ง ์ฌ์ฉํ๋ฉด
- decoder ๋ถ๋ด ๊ณผ๋ค
- attention noise ์ฌ๊ฐ
โdecoder ์ด์ ์ context-aware filtering + decoder ๋ด๋ถ์ query-guided refinementโ
Stage 1: Context-aware Coarse Pruning
- Vision encoder + projector ์ดํ, LLM decoder ์ ๋ ฅ ์ง์ (diversity-based pruning์ฒ๋ผ)
- ๋ชฉ์ : ๋ฉํฐ๋ชจ๋ฌ ICL ์ํ์ค์์ ๋งฅ๋ฝ(context)๊ณผ ๊ฑฐ์ ์ํธ์์ฉํ์ง ์๋ image token์ decoder์ ๋ค์ด๊ฐ๊ธฐ ์ ์ ์ ๊ฑฐ
- ๊ธฐ์กด diversity-based pruning
- image token ๊ฐ feature similarity๋ง ์ฌ์ฉ
- ์ด๋ฏธ์ง ๋ด๋ถ ์ค๋ณต ์ ๊ฑฐ์๋ง ์ง์ค
- ๊ณ ๋ คํ์ง ์๋ ์ ๋ณด : ํด๋น ์ด๋ฏธ์ง์ ํ ์คํธ, ๋ค๋ฅธ ICD ์ด๋ฏธ์ง, query ์ด๋ฏธ์ง, ์ ์ฒด ICL ์ํ์ค
- ๋ฉํฐ๋ชจ๋ฌ์์ ์ค์ํ์ง๋ง ๋งฅ๋ฝ ์์กด์ ์ธ ํ ํฐ์ ๋ฌด์ฐจ๋ณ์ ์ผ๋ก ์ ๊ฑฐํ๋ ๋ฌธ์
Diversity ํญ Fdiv(Yi)
๊ธฐ์กด diversity-based pruning ์ฌ์ฉ

- ์ ํ๋ image token ์งํฉ Yi ๊ฐ ์๋ image token ๊ณต๊ฐ XiI ๋ฅผ ์ผ๋ง๋ ์ ๋ํ(coverage)ํ๋์ง ์ธก์
- submodular : ์ด๋ฏธ ์ ํ๋ ํ ํฐ ์๊ฐ ๋ง์์๋ก token์ ํ๋ ๋ ์ถ๊ฐํ ๋์ ์ด๋์ด ๊ฐ์
Alignment ํจ์ Falign(Yi)
imageโtext alignment score

- ๊ฐ image token์ด text summary
vหi์ ์ผ๋ง๋ ์๋ฏธ์ ์ผ๋ก ๊ฐ๊น์ด์ง ์ธก์ vหi: ํด๋น image์ ๋ถ์ ํ ์คํธ ํ ํฐ๋ค์ hidden state๋ฅผ average pooling

- modular : ๊ฐ ์์์ ์ ์๊ฐ ์๋ก์๊ฒ ์ ํ ์ํฅ ์ ์ฃผ๋ ํจ์
์ต์ข ๋ชฉ์ ํจ์
: ๋์ ํฉ์ ์ต๋ํํ๋ ์ด๋ฏธ์ง ํ ํฐ ์งํฉ

- Greedy selection
- submodular์ธ Fdiv + modular์ธ Falign ์ด๋ผ์ ๋ํ ์ต์ข ๋ submodular โ Greedy๊ฐ๋ฅ
- ๋งค ๋จ๊ณ๋ง๋ค โ์ง๊ธ ์ถ๊ฐํ์ ๋ Fdiv + Falign์ด ์ ์ผ ๋ง์ด ์ค๋ฅด๋ ํ ํฐโ์ ํ๋์ฉ ์ถ๊ฐํด๋ ๊ฒฐ๊ณผ ์ข์
Stage 2: Query-guided Fine-grained Pruning
- LLM decoder ๋ด๋ถ์ ๋ ๊ฐ์ ์์ decoder layer๋ง
- Layer K โ ICD ์ด๋ฏธ์ง ํ ํฐ pruning (context pruning)
- Layer K+1 โ Query ์ด๋ฏธ์ง ํ ํฐ pruning (query pruning)
Attention growth

- Ak = k๋ฒ์งธ layer์ attention matrix
- layer Kโ1 โ K ๋ก ๋์ด๊ฐ๋ฉด์ query๊ฐ ํด๋น token์ ๋ ์ฌ์ฉํ๊ฒ ๋์๋์ง ์ธก์
Context token ์ค์๋ ์ ์

- ฮA(c): query๊ฐ ์๋กญ๊ฒ ์ฃผ๋ชฉํ๊ธฐ ์์ํ token์ธ๊ฐ?
- sim(hcK,vqK): token ์๋ฏธ๊ฐ query ์๋ฏธ์ ๋ง๋๊ฐ?
- pruning ratio R ๋ฌ์ฑ๊น์ง Scontext ๋ฎ์ ์์ผ๋ก ์ ๊ฑฐ
Query token ์ค์๋ ์ ์

- Query token ์๋ฏธ๊ฐ ์์์ ๋จ๊ฒจ์ง ICD(context) ํ ํฐ ์๋ฏธ์ ๋ง๋๊ฐ?
- pruning ratio R ๋ฌ์ฑ๊น์ง Scontext ๋ฎ์ ์์ผ๋ก ์ ๊ฑฐ
์ Stage2์์ Query๋ฅผ ๋ณด๋๊ฐ?

- ๋ ์ด์ด ์งํ ์ค query-cross ์ด ๊ธ๊ฒฉํ ์ฆ๊ฐํ๋๊ฑธ ๋ณผ ์ ์์
โ ์ด๋ ๋์ฝ๋์ Layer ๋์ค์ query์์ ์ํธ์์ฉ์ด ์ปค์ง๋ค๋ ๊ฒ
Overview

Stage1: ์ฒ์์ ๋์ถฉ ์ค์ํ ๊ทธ๋ฆผ ์กฐ๊ฐ๋ง ๋จ๊ธฐ๊ธฐ
- Falign: text summary์ alignmentํด์ ํ ์คํธ ํ ํฐ๊ณผ ์ผ๋ง๋ ์ฐ๊ด์๋์ง
- Fdiv: ๋ค๋ฅธ ํ ํฐ๋ค๊ณผ ์ผ๋ง๋ ์ ๋ํ(coverage)ํ๋์ง
- ๋์ ํฉ์ ์ต๋ํํ๋ ํ ํฐ ์งํฉ์ ๋จ๊น
Decoder ์ง์ (Layer 0 โ K-1)
- ๋ชจ๋ธ์ด query ์ค์ฌ์ผ๋ก ์ฌ๊ณ ๋ฅผ ์์ํจ
Stage2: ์ง๋ฌธ(Query)์ ๊ธฐ์ค์ผ๋ก ์ ๋ง ์ธ๋ชจ ์๋ ์กฐ๊ฐ๋ง ์ ๋ฐํ๊ฒ ๋จ๊ธฐ๊ธฐ
- Attention difference (Layer K-1 โ K)
์ง๊ธ attention ํฐ ์ ๊ฐ ์ค์ํ๊ฒ ์งโ FastV ๋ฐฉ์์ธ๋ฐ, ์ด๋ ๊ฒ ์ํจ!!!!
- ์ด ์ง๋ฌธ์ ์ฒ๋ฆฌํ๋ฉด์ ๊ฐ์๊ธฐ ์ค์ํด์ง ํ ํฐ์ด ๋ญ์ง?
- Layer K: ICD(context) ํ ํฐ ์ ๋ฆฌ
- ๊ธฐ์กด pruning์ ๊ฐ ์ด๋ฏธ์ง๋ง๋ค ๊ฐ์ ๋น์จ๋ก ์๋ฅด์ง๋ง, ์ด๊ฑด ICD๊ฐ์๋ ์๋ฅด๋ ํ ํฐ ์๊ฐ ๋ค๋ฆ
- ICD ๊ฐ ์ฐจ๋ณ pruning โ๋ฉํฐ๋ชจ๋ฌ ICL ์ง์ง ์ค์ํ ํฌ์ธํธ
- Layer K+1: Query ์ด๋ฏธ์ง ํ ํฐ ์ ๋ฆฌ
- ๋ฐ๋๋ก ๋จ์ ์๋ ICD(context) ํ ํฐ์ ๊ธฐ์ค์ผ๋ก query ์ด๋ฏธ์ง์์ ๋งฅ๋ฝ์๋ง๋ ๊ฒ๋ค๋ pruning
- ์ดํ Layer
- ์์์ ํ ํฐ ๋ง์ด ์ค์ธ ์ํ๋ก ๊ณ์ฐ
Experiments
Setup
- LLaVA-Next-7B ์ฃผ๋ก ์ฌ์ฉ, LLaVA-1.5. Qwen2.5-VL ์ถ๊ฐ ์ฌ์ฉ
- pruning์ inference-time ์๋ง ์ ์ฉ
- ๋ฉํฐ๋ชจ๋ฌ question answering ์ค์ฌ benchmark
- VQAv2, GQA, VizWiz, TextVQA, OK-VQA, MMBench
Main Results

๊ฐ Baseline ์ค๋ช
- FastV โ decoder attention ํฌ๊ธฐ๋ฅผ ๊ธฐ์ค์ผ๋ก image token์ ์ ๊ฑฐํ๋ attention-based pruning
- DivPrune โ image token embedding์ ๋ค์์ฑ(coverage)์ ๊ธฐ์ค์ผ๋ก ์ ๊ฑฐํ๋ diversity-based pruning
- FitPrune โ image token๊ณผ ํ ์คํธ ๊ฐ feature ์ ์ฌ๋๋ฅผ ๊ธฐ์ค์ผ๋ก ์ ๊ฑฐํ๋ feature-alignment ๊ธฐ๋ฐ pruning
- VTW โ image token ์ค์๋๋ฅผ ํ์ต๋ ๊ฐ์ค์น๋ก ์กฐ์ ํ๋ token weighting ๊ธฐ๋ฐ soft pruning
- HiRED โ ๊ณ์ธต์ relevance ํ๋จ์ผ๋ก token์ ์ ํํ๋ hierarchical routing ๊ธฐ๋ฐ pruning
- SparseVLM โ ๋ชจ๋ธ ๊ตฌ์กฐ ์์ฒด์ sparsity๋ฅผ ๋์ ํ๋ architecture-level sparse VLM
- PLPHP โ ํ์ต๋ ์ ์ฑ
(policy)์ผ๋ก token์ ์ ๊ฑฐํ๋ policy-learning ๊ธฐ๋ฐ pruning
- ์ ์ด์ VLM / LVLM์ ์ ์ ๋ก ์ค๊ณ๋ pruning โ ๋ค๋ฅธ ์ ๋ค๋ณด๋ค ๋ฉํฐ๋ชจ๋ฌ ํ๊ฒฝ์ ์กฐ๊ธ ๋ ์นํ์
- ํ์ง๋ง, query๊ฐ policy ์ ๋ ฅ ์ค ํ๋์ผ ๋ฟ pruning ๊ธฐ์ค์ ์ด ์๋.
- CATP โ ๋ฉํฐ๋ชจ๋ฌ ICL์์ query๋ฅผ ๊ธฐ์ค์ผ๋ก context ์ ์ฒด๋ฅผ ์ ์์ ์ผ๋ก ์ค์ด๋ context-aware, query-guided pruning
๊ธฐ์กด ๋ฐฉ๋ฒ๋ค์ Randomํ๊ฒ pruningํ๋ ๊ฒฐ๊ณผ์ ๋น์ทํ๊ฑฐ๋ ์คํ๋ ค ๋ ๋ฎ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ด๊ธฐ๋ ํจ.
66.7%์ 77.8% ๋ชจ๋ ๋ฐ๋๋ผ ๋ชจ๋ธ์ ๋นํด ์ฑ๋ฅ์ด ํฅ์, 89.9%์์ ์ด์ง ๋จ์ด์ง.
Efficiency Analysis

GPT์ ํด์Wen et al. (2025a)์ ๋ฐ๋ฅด๋ฉด FLOPs์ KV Cache๋
token pruning์ ์ค์ ์คํ ๋น์ฉ์ ๋ฐ์ํ์ง ๋ชปํ๋ฉฐ,
pruning ์ฐ์ฐยท๋ฉ๋ชจ๋ฆฌ ์ ๊ทผยท๋ณ๋ ฌํ ํจ์จ๊น์ง ํฌํจํ๋ latency๋ง์ด
token pruning ํจ์จ์ ๊ฐ์ฅ ์ ๋ขฐ ๊ฐ๋ฅํ ์งํ์ด๊ณ ,
์ด ๊ธฐ์ค์์ CATP๋ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๊ณผ ์ง์ ์ผ๋ก ๋ค๋ฅธ ํจ์จ์ฑ์ ๋ณด์ธ๋ค
- pruning์ ์ ํด์ง layer(K, K+1) ์์๋ง ์ํ
- ํ ํฐ์ ์ค์ ๋ก ์์ ํ ์ ๊ฑฐ
โ ์ดํ layer๋ค์ ๋ ์งง์ ์ํ์ค๋ฅผ ๊ทธ๋๋ก denseํ๊ฒ ์ฒ๋ฆฌ
โ GPU ์นํ์ ์ธ ์ฐ์ฐ์ผ๋ก FLOPs
- ํ ํฐ์ earlyํ๊ฒ ์ ๊ฑฐ
โ ์ดํ layer์์ KV cache ํฌ๊ธฐ ์์ฒด๊ฐ ์์์ง
Impact of each stage

decoder ์ด์ ์์ ๋ถํ์ํ image token์ ๋จผ์ ์ ๊ฑฐํด์ผ
Stage 2์ attention ๋ฐ relevance ๊ธฐ๋ฐ ํ๋จ์ด ์๊ณก ์์ด ์๋ํ ์ ์์
Stage 1๋ ๊ผญ ํ์ํ๋ค๋๊ฑธ ๋ณด์ฌ์ค
Impact of hyperparameters

- K: Progressive adaptation ์์ layer (=6, ๋ฌด๊ฑฐ์ด ๋ชจ๋ธ์์๋ 10)
- queryโcontext ์ํธ์์ฉ์ด ์ธ์ ๋ณธ๊ฒฉํ๋๋์ง
- Stage 1์ ฮปโ (=0.7)
- ฮปโ์ด ๋๋ฌด ์์ ๊ฒฝ์ฐ pruning ๊ธฐ์ค์ด ๊ฑฐ์ alignment ์์ฃผ๋ก ์๋
ํน์ ํ ์คํธ์ ๊ฐํ๊ฒ ๋์๋๋ token๋ง ๋จ์ image ๋ด๋ถ์ ๊ณต๊ฐ์ ยท์๊ฐ์ ๋ค์์ฑ ์์ค
- ฮปโ์ด ๋๋ฌด ์์ ๊ฒฝ์ฐ pruning ๊ธฐ์ค์ด ๊ฑฐ์ alignment ์์ฃผ๋ก ์๋
Conclusion
- training-free๋ก ๋ฉํฐ๋ชจ๋ฌ ICL์ ํนํ๋ ์ด๋ฏธ์ง ํ ํฐ ํ๋ฃจ๋
- 2 Stage ๊ตฌ์กฐ๋ก ์ ๋ ฅ๋ in-context sequence ์ ์ฒด๋ฅผ ๊ธฐ์ค์ผ๋ก ICL ๊ณผ์ ์ ์ค์ํ ์ด๋ฏธ์ง ํ ํฐ๋ง ์ ํ
- performance, efficiency ๋ ๋ค ํฅ์
- ๋ฉํฐ๋ชจ๋ฌ ICL ์ฐ๊ตฌ ์์ฒด๊ฐ ๊ณต๋ฐฑ์ด์๋๋ฐ ํจ์จ์ ์ผ๋ก ๊ฐ์ ํจ
โ LVLM ๋ฐ์ ์ insight ์ ๊ณตํ๋ค!
Limitation
- attention difference๊ฐ ์๋ฏธ์ ์ค์๋(semantic necessity)๋ฅผ ๋ณด์ฅํ๋ค๋ ์ฆ๋ช
์ด ์์
- ์ค์ํ ์ ๋ณด๊ฐ ๊ทธ๋ฅ ์ฒ์๋ถํฐ attention์ด ๋๋ค๋ฉด?
- attention ๋ณํ๊ฐ positional bias layer normalization ๊ฐ์ ์ด์ ๋ก ์ผ์ด๋ฌ๋ค๋ฉด?
- decoder-centric LVLM์ ์ ์ ๋ก ํ๊ณ , encoderโdecoder ๋ถ๋ฆฌํ, early fusion ๊ตฌ์กฐ, cross-attention ์ค์ฌ ๊ตฌ์กฐ์ ์๋ง๋๋ค.
Future Work
Importance Persistence / Temporal Contribution Modeling
- Layer ํ๋์์ attention difference ํ๋๋ฅผ ์ ํธ๋ก ์ฐ์ง ๋ง๊ณ , ๋ค์๊ฐ์ ํ ํฐ์ ๊ฐ์ค์น ์ฃผ๊ฑฐ๋ ๋ณดํธ
- ์ฒ์๋ถํฐ ๋๊น์ง ๊ณ์ ์ฐธ์กฐ๋๋ ํ ํฐ
- ์ฌ๋ฌ query step์์ ๋ฐ๋ณต์ ์ผ๋ก ์ ํ๋๋ ํ ํฐ
- multi-step reasoning, long-horizon ICL, agent-style inference ํ์ฅ
GUI Grounding ํ์ฅ
- layer ๊ฐ difference๊ฐ ์๋๋ผ action ์ ํ๋ก attention difference๋ก ํ์ฅํด๋ณด์!
- ์ด๋ฏธ ์๋ GUI Grounding ๋ ผ๋ฌธ์ ๋ ๋ค Vision ๊ธฐ๋ฐ์ด ์๋๊ณ , Action(click, type, scroll) ์ดํ HTML/DOM tree์ ๋ณ๊ฒฝ ์ฌํญ์ ์ค์ฌ์ผ๋ก ๋ค์ ํ๋ ํ๋ณด๋ฅผ ๊ตฌ์ฑ
- state diff๊ฐ ํฐ๊ฒ๋ง ๋จ๊ธฐ๋ ๋ ผ๋ฌธ์ ์ด๋ฏธ ๋ง์ (๋ก๋ด / embodied VLA)
- ์ถ๊ฐ๋ก reasoning diff ํ๋ฉด ์ง๋ฌธ(query)์ ์ํด ์๋กญ๊ฒ ์ค์ํด์ง ๊ฒ์ ์ถ๊ฐ์ ์ผ๋ก ๊ฑธ๋ฌ๋ด๋ ์ญํ
- ์๊ฐํด๋ณธ ์์ด๋์ด
- ๊ฐ์ ๋์ฝ๋ layer K์์ (query์ ์ํฅ๋ ฅ์ด ์ปค์ง๋ layer K๋ฅผ ์ด ๋ ผ๋ฌธ์ฒ๋ผ ์ฐพ์์)
- action ์ ์ ๋ ฅ(state_t)์ ๋ฃ์์ ๋์ attention
- action ํ ์ ๋ ฅ(state_t+1)์ ๋ฃ์์ ๋์ attention ์ฐจ์ด ๊ฐ ํฐ ๊ฑธ ๋จ๊ธฐ๊ณ ,
- ๋๋จธ์ง K+1 ๋ฒ์งธ Layer๋ถํฐ pruning๋ ์ฑ๋ก ์งํ
- GUI๊ฐ ํนํ ๋ค๋ฅธ sequential๋ณด๋ค state ๋ณํ๋์ด ๋งค์ฐ ์ปค์ง๋ ๊ฒฝ์ฐ๊ฐ ๋ง์์ state diff ์ธ์๋ ์ด๊ฑธ ์ถ๊ฐํด์ผ ๋ง์ token pruning์ด ๊ฐ๋ฅํ ๋ฏ?
Q&A
๋ ผ๋ฌธ Presentation ๋ฐํ ์ค ์ ๋๋ก ๋ต๋ณ ๋ชปํ Q&A
Multimodal ICL์์ token duplication(=redundancy) ๋ฌธ์ ์ด์
As shown in Figure 1(a), every ICD and the subsequent query sample include an image, so the image token redundancy that is already a bottleneck in single-image tasks becomes even more acute.
duplication ๋ฌธ์ ๋ ์๋ single image์์๋ ์ด๋ฏธ ์กด์ฌํจ
: image token๋ค์ด feature space์์ ๊ฑฐ์ ๋์ผํ embedding์ ํ์ฑํด์ ์ธ์ ํ ๋ถ๋ถ (ํนํ ๋ฐฐ๊ฒฝ) ๋ฑ์์ ๋น์ทํ cluster โ near-duplicate image token
ํนํ ์ฌ๋ฌ ์ด๋ฏธ์ง๊ฐ interleaved ๋๋ ICL ๊ตฌ์กฐ์์๋
๋์ผํ encoder์ projector๋ฅผ ๊ฑฐ์น ๋น์ทํ ๊ตฌ์กฐ์ ์ฌ๋ฌ ์ด๋ฏธ์ง๊ฐ ํ๋์ prompt์ ๋ฐ๋ณต ์ฝ์ ๋๋ฏ๋ก, ์ค๋ณต ๊ตฌ์กฐ๊ฐ ์ด๋ฏธ์ง ๊ฐ์๋ ๋์ ๋์ด ์ฌํด์ง๋ค.
pruning ์ดํ position embedding์ ์ด๋ป๊ฒ๋๋๊ฐ?
masking์ด ์๋ ์ง์ง ์ ๊ฑฐํ๋ pruning์ด๋ฉด transformer์์ position embedding์ ์ด๋ป๊ฒ ์ฒ๋ฆฌํ๋๊ฐ?
๋ ผ๋ฌธ์์๋ pruning ์ดํ position embedding ์ฒ๋ฆฌ์ ๋ํด ๋ช ์์ ์ผ๋ก ์ค๋ช ์ด ์์.
๊ธฐ์กด ๋ ผ๋ฌธ๋ค๋ position embedding์ ๋ค์ ๋ถ์ฌํ๊ฑฐ๋ ์ ์งํ๋ ํน๋ณํ ๋ณด์ ์ ๋ฑํ ์ํ๋ค.
๋จ์ token์ ์ฐ์ ์ํ์ค๋ก ์ฌ๋ฐฐ์ดํ๊ณ position embedding์ ๋ค์ ๋ถ์ฌ
โ ๊ธฐ์กด pruning ์ฐ๊ตฌ๋ค์ ์ ๋ ์์น ๋ณด์กด๋ณด๋ค๋, pruning ์ดํ์๋ reasoning์ ํ์ํ ์๋์ ๊ด๊ณ๊ฐ ์ ์ง๋๋์ง๋ฅผ ๋ ์ค์ํ๊ฒ ๊ฐ์
โญ๏ธโญ๏ธโญ๏ธ ์ query๋ ๋น๊ต๋ฅผ stage 2์์ ํด์ผํ๋๊ฐ?
query-cross shows a sharp rise in the shallow layers, roughly layers 7 to 10, indicating that after perception, the LVLM shifts to query-guided reasoning

- ์ด ๊ทธ๋ํ์์ ๋ด์ผํ Query-cross
- query sample์ ๋ชจ๋ ํ ํฐ์ด image token์ ์ฃผ๋ attention์ ๊ธฐ์ค์ผ๋ก ํ pruning ์ ํธ
- โICL์์๋ ๊ฒฐ๊ตญ query๊ฐ ์ค์ํ๋, query๊ฐ ์ฃผ๋ชฉํ๋ ํ ํฐ์ด ์ค์ํ์ง ์์๊น?โ
- ๋์ฝ๋์์ query-cross ๊ธฐ๋ฐ pruning์ด shallow layer(7~10)์์ ์๋ ์ฑ๋ฅ์ด ์ข์์ง๋ ๊ฒฝํฅ
โ ๋ ผ๋ฌธ์์ ์ด๋ฅผ perception ์ดํ query-guided reasoning์ผ๋ก์ ์ ํ ์ ํธ๋ก ํด์
โ๋์ฝ๋์ Layer ๋์ค์ query์์ ์ํธ์์ฉ์ด ์ปค์ง๋ค!โ
๊ฒฐ๋ก
- ์ด๊ธฐ decoder layer
- imageโtext perception
- local alignment ์ค์ฌ
- ํน์ shallow layer ์ดํ
- query๊ฐ context๋ฅผ ์ ํ์ ์ผ๋ก ์ฐธ์กฐ
- query-guided reasoning์ผ๋ก ์ ํ
โ query๊ฐ context token ์ค์๋๋ฅผ ์ค์ ๋ก โ๋ถ๋ณโํ๊ธฐ ์์ํ๋ ์ง์ ์ด ์กด์ฌ
Decoder ์ด์ ์์๋ query์ ๋น์ทํด ๋ณด์ด๋ visual token๋ง ์ฐพ์ ์ ์์ ๋ฟ์ด๋ค.
query ๋ต๋ณ์ ์ค์ง์ ์ผ๋ก ๊ธฐ์ฌํ๋ token์ ์ธก์ ํ๊ธฐ ์ด๋ ต๋ค!
์ด๊ฒ ์ด ๋ ผ๋ฌธ์ Key Idea์ด๋ค.
๊ธฐ์กด pruning๊ณผ ๊ฒฐ์ ์ ์ผ๋ก ๋ค๋ฅธ ์ง์ ์ด โ๋จ์ํ Query๋ ๋น๊ตํ๋ค.โ ๊ฐ ์๋๋ผ
query-guided reasoning์ด ๋ฐ์ํ๋ ์์ ์ ์ ํํ ์ง์ด์ pruning ์์น๋ฅผ ๋ถ๋ฆฌํ๋ค๋ ์ ์ด๋ค.
Diversity function์ ๊ทธ๋ฅ projection ์ ์ Stage 0 ์ฒ๋ผํ๋ฉด ์ด๋ค๊ฐ?
Projection ์ด์ ์ ํ๋ฉด Projection ์ด์ ๋ถํฐ ํ๋ฃจ๋์ ํด์ Projection ์ฐ์ฐ์ด ์ค๊ฒ ์ง๋ง, ์ํ์ฑ์ด ์๋ค.
๊ธฐ์กด์๋ Diversity ๊ด๋ จ prune์ธ DivPrune ์์ฒด๋ ์ด ๊ตฌ๊ฐ์์ ํ์.
Vision Encoder โ Projector โ DivPrune โ Decoder
DivPrune frames image token pruning after the projector as a Max-Min diversity problem, aiming to choose a subset of tokens that maximizes diversity among the selected tokens.
projector ์ดํ์ token๋ค์ด ์ด๋ฏธ decoder๊ฐ ์ค์ ๋ก ์ฌ์ฉํ๋ embedding space์ ๋์ด๋ฏ๋ก cosine similarity ๊ธฐ๋ฐ diversity objective๋ฅผ ์ ์ํ๋ ๊ฒ์ด ์์ฐ์ค๋ฌ์!
โ reasoning์ ๊ธฐ์ฌํ๋ token์ ๋จ๊ธฐ๋ ๊ฒ์ด ๋ชฉํ์ด๊ธฐ ๋๋ฌธ์,
decoder embedding space ๊ธฐ์ค์ผ๋ก diversity๋ฅผ ์ธก์ ํ๋๋ก ์ค๊ณ๋จ
์์์ ๊ฐ์ง๋ง, projection์ผ๋ก ๋น์ ํ ๋ณํ์ด ๋๋ค๋ฉด projection ์ ํ๋ก ๊ณต๊ฐ์์ ์ต๊ทผ์ ๋ํ ํ ํฐ์ด ๋ฌ๋ผ์ ธ์ ์ ํ๋๋ token ์งํฉ์ด ๋ฌ๋ผ์ง
Pruning Layer K = 6 (7B/8B), K = 10 (13B) ์ด์ ?
๋ ผ๋ฌธ์ ๋ช ์๋์ด์์ง๋ ์์ง๋ง, ์๋ง๋ decoder layer ์๊ฐ ๋ฌ๋ผ์ ๊ทธ์ ๋ ๊ฒฝ๊ณ์์ ์คํํ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค.
- LLaVA-Next-7B
- LLM backbone: Mistral-7B โ 32 layers
- LLaVA-Next-13B
- LLM backbone: Vicuna-1.5-13B โ 40 layers