| ArXiv | http://arxiv.org/abs/2412.16491 |
|---|---|
| Authors | Seungdong Yoa, Seungjun Lee, Hyeseung Cho, Bumsoo Kim, Woohyung Lim |
| Affiliation | LG AI Research, Chung-ang University |
Key Differentiator
Attention ์ ์๊ฐ ๋ฎ์ Non-sementicํ Token๋ผ๋ฆฌ๋ง Merging
โ ์ต๋ํ Token Merging์์ ์๋ฏธ์๋ ๊ฒ๋ค์ด Merge๋์ง ์๋๋ก Token Reduction
Why I chose this paper?
- ์ฐ๋ฆฌ๋๋ผ ๊ธฐ์ ์ด ๋ด๋ ๋ ผ๋ฌธ์ ์ฝ๊ณ ์ถ์๋ค.
- ๋ด๊ฐ ์ต๊ทผ์ ์ ์ถํ๋ Efficient GUI Grounding ๋ ผ๋ฌธ์ ํ์์ฐ๊ตฌ๋ฅผ Token ๊ธฐ๋ฐ์ผ๋ก ํ์ฅํ๊ณ ์ถ์๋ค.
Abstract
Vision Transformer๋ ๋ชจ๋ ํจ์น๋ฅผ ํ ํฐ์ผ๋ก ์ฒ๋ฆฌํ๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ๋์ด ํผ
โ ๊ธฐ์กด ์ฐ๊ตฌ๋ค์ ํ ํฐ์ ์ ๊ฑฐ(pruning) ํ๊ฑฐ๋ ํฉ์น๊ธฐ(merging)
โ ๊ฐ ํ ํฐ์ด ์๋ฏธ๋ฅผ ์ถฉ๋ถํ ๋ด๊ณ ์์ง ์์์ ์๋ฏธ ์๋ ํ ํฐ์ ๋จ์ํ ์ ๊ฑฐํ๊ฑฐ๋ ์์ผ๋ฉด ์คํ๋ ค ์ ๋ณด ์์ค์ด ํผ
์ด ๋ ผ๋ฌธ์ โImagePieceโ ๋ผ๋ ์๋ก์ด ์ฌํ ํฌ๋์ด์ ์ด์ (re-tokenization) ๋ฐฉ์์ ์ ์
WordPiece tokenizer์ฒ๋ผ ์ด๋ฏธ์ง ์์ ์๋ฏธ ์๋ ์์ ํจ์น๋ค์ ํฉ์ณ์ ์๋ฏธ ์๋ ๋จ์๊ฐ ๋ ๋๊น์ง ๋ฌถ๋ ๋ฐฉ์
- local coherence ๋ชจ๋: ์ธ์ ํ ํจ์น๋ค์ ์ ์ฌ์ฑ์ ๋์ฌ, ์๋ก ์๋ฏธ๋ฅผ ํ์ฑํ๋๋ก ๋์
- ์ด๋ ๊ฒ ๋ง๋ค์ด์ง ์๋ก์ด โ์๋ฏธ ์๋ ํ ํฐโ๋ง Transformer์ ๋จ๊ธฐ๊ณ , ๋๊น์ง ์๋ฏธ๊ฐ ์๋ ํ ํฐ์ ๋ฒ๋ฆฐ๋ค.
๊ฒฐ๊ณผ
- DeiT-S ๋ชจ๋ธ ๊ธฐ์ค ์ถ๋ก ์๋ 54% ํฅ์ (์ฝ 1.5๋ฐฐ ๋น ๋ฆ)
- ๋์์ ImageNet ์ ํ๋ 0.39% ํฅ์
- ๊ทน๋จ์ ์ธ ์๋ ์กฐ๊ฑด(251% ๊ฐ์)์์๋ ๊ธฐ์กด ๋ฐฉ์๋ณด๋ค ์ ํ๋๊ฐ 8% ์ด์ ๋์
Preliminary
Vision Transformer(ViT)
- Transformer๋ ์๋ NLP์ฉ ๋ชจ๋ธ์ด์ง๋ง,
์ด๋ฏธ์ง์๋ ์ ์ฉ๋๋ฉด์ Vision Transformer(ViT) ๊ฐ ๋ฑ์ฅ (Dosovitskiy et al., 2021)
- ์ด๋ฏธ์ง๋ฅผ ์ ์ฌ๊ฐํ ํจ์น(pรp) ๋ก ๋๋๊ณ , ๊ฐ ํจ์น๋ฅผ ํ๋์ ํ ํฐ(token) ์ผ๋ก ๋ณํํด Transformer์ ์ ๋ ฅ
- 224ร224 ์ด๋ฏธ์ง, ํจ์น ํฌ๊ธฐ 16ร16 โ ๏ปฟ ๊ฐ์ ํ ํฐ ์์ฑ
์ฌ๊ธฐ์ [CLS] ํ ํฐ์ ์ถ๊ฐํด ์ด 197๊ฐ์ ํ ํฐ์ด Transformer ์ ๋ ฅ
Token Importance (ํ ํฐ ์ค์๋ ํ๊ฐ)
- ViT ๋ด๋ถ์์๋ [CLS] ํ ํฐ์ด ์ ์ฒด ์ด๋ฏธ์ง์ ์ ์ญ ์ ๋ณด๋ฅผ ์์ฝํ๋ ์ญํ ์ ํจ.
- ๊ฐ ํ ํฐ์ ์ค์๋๋ [CLS] ํ ํฐ์ด ํด๋น ํ ํฐ์ ์ผ๋ง๋ ์ฃผ์๋ฅผ ๋๋๊ฐ(attention) ๋ก ์ธก์
- ๏ปฟ : [CLS] ํ ํฐ์ query ๋ฒกํฐ
- ๏ปฟ: ์ ์ฒด ํ ํฐ์ key, value ํ๋ ฌ
- ๏ปฟ: ๊ฐ ํ ํฐ์ด [CLS]์ ์ํด ์ผ๋ง๋ ์ค์ํ๊ฒ ์ฌ๊ฒจ์ง๋์ง ๋ํ๋ด๋ attention score
โ ์ด attention score ๊ฐ์ด ๋์์๋ก, ๊ทธ ํ ํฐ์ ์ ์ฒด ์ด๋ฏธ์ง ์๋ฏธ๋ฅผ ๊ตฌ์ฑํ๋ ๋ฐ ๋ ์ค์ํจ์ ์๋ฏธ.
- ๊ฐ ํ ํฐ์ ํจ์น ์๋ฒ ๋ฉ(embedding) + ์์น ์๋ฒ ๋ฉ(positional embedding) ์ ํฌํจํ์ฌ
Self-Attention์ผ๋ก ์ ์ญ ์ ๋ณด๋ฅผ ํ์ตํจ.
- ์ฆ, NLP์์์ โ๋จ์ด ํ ํฐโ โ ViT์์๋ โ์ด๋ฏธ์ง ํจ์น ํ ํฐโ
๊ทธ๋ฌ๋ ๋ ๋ถ์ผ๋ ํ ํฐ์ ์๋ฏธ(semantic structure) ์ธก๋ฉด์์ ํฐ ์ฐจ์ด๊ฐ ์์
| ๊ตฌ๋ถ | NLP (WordPiece ๋ฑ) | ViT (Patch Token) |
|---|---|---|
| ์ ๋ ฅ ๋จ์ | ๋จ์ด ๋๋ ์๋ฏธ ์๋ ์๋ธ์๋ | 16ร16 ํฝ์ ํจ์น |
| ํ ํฐ ์๋ฏธ | ๋๋ถ๋ถ ์๋ฏธ ์์ | ๋ง์ ํจ์น๋ ๋ฐฐ๊ฒฝ ๋ฑ, ์๋ฏธ ์์ |
| ๊ฒฐ๊ณผ์ ๋ฌธ์ | ์์ | ์ ๋ณด๊ฐ ํฌ๋ฐํ๊ณ ์ค๋ณต ๋ง์ |
โ ViT์ ํจ์จ์ฑ ๋ฌธ์ ๋ โ์๋ฏธ ์๋ ํ ํฐ์ด ๋๋ฌด ๋ง์โ ์์ ๋น๋กฏ๋จ.
ViT = O(Nยฒ)
Related Work (Efficient Transformer)
(1) Efficient Attention
Self-Attention์ ์ฐ์ฐ๋ ์์ฒด๋ฅผ ์ค์ด๋ ์ ๊ทผ.
Attention์ ๊ทผ์ฌํ๊ฑฐ๋ ๋ณ๋ ฌ ์ต์ ํ๋ก ์๋ ํฅ์.
- Linformer (Wang et al., 2020)
- Performer (Choromanski et al., 2020)
- FlashAttention (Dao et al., 2022)
โ Attention ๋ ๋ฒจ์ ์ต์ ํ๋ก ๊ณ์ฐ๋ง ์ค์ด๊ณ , ํ ํฐ ์์ฒด์ ์๋ฏธ ๋ฌธ์ ๋ ํด๊ฒฐํ์ง ๋ชปํจ.
(2) Token Pruning (ํ ํฐ ์ ๊ฑฐ)
๋น์ค์ ํ ํฐ์ attention score ๊ธฐ์ค์ผ๋ก ์ ๊ฑฐ.
- DynamicViT (Rao et al., 2021): ํ์ต๋ projection layer๋ก ํ ํฐ์ ์ ์ง์ ์ผ๋ก ๋ฒ๋ฆผ.
- EViT (Liang et al., 2022): class token์ ๋ํ attention์ ๊ธฐ์ค์ผ๋ก ํ์ ํ ํฐ ์ญ์ .
- SPViT (Kong et al., 2022): soft selector๋ก ์ค์๋ ๊ณ์ฐ ํ pruning.
โ ์๋ฏธ๊ฐ ์์ ํ ๋๋ฌ๋์ง ์์ ํ ํฐ(์: ๋ฒ์ค์ ์ผ๋ถ ์กฐ๊ฐ)์ ๋๋ฌด ๋นจ๋ฆฌ ์ ๊ฑฐํจ โ ์ ๋ณด ์์ค ๋ฐ์.
(3) Token Merging (ํ ํฐ ๋ณํฉ)
๋น์ทํ ํน์ง์ ๊ฐ์ง ํ ํฐ๋ค์ ๊ฒฐํฉ(merge) ํ์ฌ ์๋ฅผ ์ค์.
- ToMe (Bolya et al., 2023): bipartite soft matching์ผ๋ก ๊ฐ์ฅ ์ ์ฌํ ํ ํฐ ์ ๋ณํฉ.
- Token Pooling (Marin et al., 2021): K-Means ๊ธฐ๋ฐ ๋ณํฉ.
- Token Learner (Ryoo et al., 2021): MLP๋ก ์ ํ์ ํ ํฐ ์์ฑ.
โ ๋น์ทํ์ง๋ง ์๋ฏธ๊ฐ ๋ค๋ฅด๊ฑฐ๋ ์ค์ํ ํ ํฐ๋ค๊น์ง ์์ โ ๊ฒฐ๊ณผ์ ์ผ๋ก semantic dilution (์๋ฏธ ํฌ์) ๋ฐ์.
์ด๋ค์ ๊ณตํต์ !
โํ ํฐ์ ์๋ฏธ(semanitcs)๋ฅผ ๊ณ ๋ คํ์ง ์๋๋คโ
ImagePiece

ViT์ ํจ์จํ๋ ๋จ์ํ ํ ํฐ ์๋ฅผ ์ค์ด๋ ๊ฒ ์๋๋ผ,โํ ํฐ์ด ์ถฉ๋ถํ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋๊น์ง ์ฌ๊ตฌ์ฑ(re-tokenization)โ ํด์ผ ํ๋ค.
Step I : Token Importance Evaluation
- ๊ฐ ํ ํฐ์ด ์ ์ฒด ์ด๋ฏธ์ง ์๋ฏธ์ ์ผ๋ง๋ ๊ธฐ์ฌํ๋์ง ํ๊ฐ
- [CLS] ํ ํฐ๊ณผ์ attention ๊ฐ ๏ปฟ ์ ์ด์ฉํด ์ค์๋ ์์๋ฅผ ๊ณ์ฐ
- ์ค์๋๊ฐ ๋ฎ์ bottom-k ํ ํฐ์ ํ๋ณด๋ก ์ง์ โ โnon-semantic tokensโ
Step II : Re-tokenization of Non-semantic Tokens
- bottom-k ํ ํฐ๋ค์ ๋ ๊ทธ๋ฃน(A, B)์ผ๋ก ๋๋ ๋ค,
๊ฐ์ฅ ์ ์ฌํ ์๋ผ๋ฆฌ merge
- ๋ณํฉ์๋ bipartite soft matching์ ์ฌ์ฉ
Bipartite soft matching (Bolya et al., 2023)
โ๋ ๊ทธ๋ฃน ์ฌ์ด์ ์ต์ ์ ์ฌ๋ ๋งค์นญโ ์ ๋ถ๋๋ฝ๊ฒ(softly) ๊ณ์ฐํ๋ ์๊ณ ๋ฆฌ์ฆ
- Bipartite structure
- ๋ ํ ํฐ ์งํฉ A ์ B ๊ฐ ์ฃผ์ด์ก์ ๋, A์ ๊ฐ ํ ํฐ์ด B ๋ด์ ํ ํ ํฐ๊ณผ ์ฐ๊ฒฐ๋ ํ๋ฅ ๊ณ์ฐ
- Soft assignment
- ๊ฐ ์ฐ๊ฒฐ์ ๊ฐ๋ : ๏ปฟ
โ ํ๋์ A ํ ํฐ์ด ์ฌ๋ฌ B ํ ํฐ์ ์ ๋ณด๋ฅผ ๊ฐ์คํฉ ํํ๋ก ๋ณํฉ ๊ฐ๋ฅ
- Information preserving merge
- ์ ํ ํฐ์ ๏ปฟ ๋ก ๊ณ์ฐ๋์ด,
ํ๋ ๋งค์นญ๋ณด๋ค ๋ ์ฐ์์ ์ด๊ณ ์์ค์ด ์ ์ ๋ณํฉ์ ์ํ
- ์ ํ ํฐ์ ๏ปฟ ๋ก ๊ณ์ฐ๋์ด,
- Bipartite structure
Step III : Re-evaluation and Discarding
- merge๋ ํ ํฐ๋ค๋ง attention ์ ๋ค์ ๊ณ์ฐํ๋ฉด์ step1, 2 ๋ฐ๋ณต
- ์ต์ข ์ ์ผ๋ก ์ฌ์ ํ ์๋ฏธ๊ฐ ์์ผ๋ฉด โ ์ต์ข ์ ์ผ๋ก ์ญ์ (prune)
Local Coherence Bias (๋ก์ปฌ ์ผ๊ด์ฑ ๊ฐํ ๋ชจ๋)
- ์ด๋ฏธ์ง์ ๊ณต๊ฐ์ ํน์ฑ์ ๊ณ ๋ คํด, ์ธ์ ํ ํจ์น๋ค์ ์ ์ฌํ๊ฒ ์ธ์๋๋๋ก bias๋ฅผ ์ถ๊ฐ
- ๊ตฌ์ฒด์ ์ผ๋ก 4๊ฐ์ 3ร3 conv + 1๊ฐ์ 1ร1 conv ๋ฅผ ์ ์ฉํด ๊ฒน์น๋ ํจ์น feature ๋ฅผ ๋ง๋ฆ
- ๊ฒฐ๊ณผ์ ์ผ๋ก ๊ณต๊ฐ์ ์ผ๋ก ๊ฐ๊น์ด ํจ์น๋ค์ ์ ์ฌ๋๊ฐ ๋์์ง๊ณ ,
๋ณํฉ ๊ณผ์ ์์ ์์ฐ์ค๋ฝ๊ฒ ๊ฐ์ ์๋ฏธ ๋จ์๋ก ๋ฌถ์

| WordPiece (NLP) | ImagePiece (Vision) |
|---|---|
| ๋ฌธ์ฅ์ ์๋ฏธ ์๋ ๋จ์ด ๋จ์๋ก ๋ถํด. | ์ด๋ฏธ์ง๋ฅผ 16ร16 ํจ์น๋ก ๋ถํ . |
| โmeaningful tokensโ โ ๊ฐ ํ ํฐ์ด ์ด๋ฏธ ์๋ฏธ๋ฅผ ๊ฐ์ง. | โpatch tokensโ โ ๋๋ถ๋ถ ์๋ฏธ ์์(๋ฐฐ๊ฒฝยทํ๋ ๋ฑ). |
| ๊ธด ๋ฌธ์ฅ์ MaxMatch(์ต๋ ์ผ์น) ๋ก ํ ํฐํ. | ์๋ฏธ ์๋ ํจ์น๋ค์ ์๋ฏธ๊ฐ ์๊ธธ ๋๊น์ง ํฉ์นจ. |
WordPiece๋ ๋จ์ด๋ฅผ ์ชผ๊ฐ ์๋ฏธ ๋จ์๋ฅผ ๋ง๋ค๊ณ ,ImagePiece๋ ๋ฐ๋๋ก ์๋ฏธ ์๋ ์กฐ๊ฐ๋ค์ ํฉ์ณ ์๋ฏธ ๋จ์๋ก ๋ง๋ฆ
์๋ฅผ ๋ค์ด, ํ๋์ ํจ์น ํ๋๋ง ๋ณด๋ฉด ์๋ฌด ์๋ฏธ ์์ง๋ง
์ฃผ๋ณ ํจ์น๋ค๊ณผ ํฉ์น๋ฉด โ๋ฒ์คโ๋ผ๋ ์๋ฏธ๊ฐ ์๊น โ ์ด๊ฒ re-tokenization ์ ํต์ฌ
Compatibility with Other Methods
- ์ฌํ ํฐํ๊ฐ ํ ํฐ ์์ฑ ๋จ๊ณ์์ ์ด๋ค์ง๋ฏ๋ก, ๊ทธ ๋ค์ pruning ๋๋ merging ๋ชจ๋๊ณผ ์ถฉ๋ํ์ง ์์
- ๊ธฐ์กด Token Pruning (EViT, DynamicViT) ์ด๋ Merging (ToMe) ๋ฐฉ์๊ณผ ๊ฒฐํฉ ๊ฐ๋ฅ
- ์คํ๋ ค re-tokenization ๋๋ถ์ ์ด๊ธฐ layer์์ ์๋ฏธ ์๋ ํจ์น๊ฐ ๋นจ๋ฆฌ ์ ๋ฆฌ๋์ด ์ ์ฒด ํจ์จ์ด ๋ ์ข์์ง
Experiment
์คํ ๊ฐ์
- ๋ฐ์ดํฐ์ : ImageNet-1k (1.2M train, 50k test)
- ๊ธฐ๋ฐ ๋ชจ๋ธ: DeiT-Ti, DeiT-S (๋ ๊ฐ์ง Vision Transformer ๋ฒ์ )
- ์ ๋ ฅ ํฌ๊ธฐ: 224ร224
- ํ๋ จ: 300 epoch / finetuning, pretraining ์์. (DeiT ๋ ผ๋ฌธ๊ณผ ๋์ผํ ์ค์ ์ผ๋ก )
- NVIDIA RTX 3090
Table 1 - Token Pruning ๋น๊ต ๊ฒฐ๊ณผ

๊ฐ์ keep ratio (0.7)๊ธฐ์ค์ผ๋ก ์ธก์
- DynamicViT / EViT ์ ํ ํฐ ์ ๊ฑฐ ๊ฒฐ์ ์ ํ๋ฐ layer์์ ํจ โ ์์ชฝ layer๋ ์ฌ์ ํ ๋ง์ ํ ํฐ์ ์ฒ๋ฆฌ
- ImagePiece๋ ์ด๊ธฐ์ re-tokenization์ ์ํ โ ์ layer๋ถํฐ ํ ํฐ ์๊ฐ ํฌ๊ฒ ์ค์ด๋ฆ.
Table 2 - Token Merging ๋น๊ต ๊ฒฐ๊ณผ

ImagePiece๋ ์๋ฏธ ์๋ ํ ํฐ๋ง ๋ณํฉํ๊ธฐ ๋๋ฌธ์ ์๋ฏธ ์๋ ์ ๋ณด(semantic tokens)๋ ๊ทธ๋๋ก ์ ์ง
โ ์ ํ๋ ์์ค ๊ฑฐ์ ์์
Figure 3 - Hyper-speed Inference Experiment
์ด ์คํ์ โํ ํฐ ์๋ฅผ ๊ทน๋จ์ ์ผ๋ก ์ค์ฌ๋ ์ฑ๋ฅ์ด ์ ์ง๋๋๊ฐ?โ ๋ฅผ ๋ณด๋ ํ ์คํธ
๊ฐ ๋ชจ๋ธ์ keep rate (๋จ๊ธฐ๋ ํ ํฐ ๋น์จ)์ 70%, 60%, 50%, ... ๋ก ์ ์ ์ค์ฌ๊ฐ๋ฉด์ ์ธก์
โ ๊ทน๋จ์ ์ผ๋ก ๋น ๋ฅธ ์ถ๋ก ์๋์ผ๋๋ ์ ํ๋ ๋ง์ด ๋ณด์กด

๊ฐ์ย Acc ๊ธฐ์ค์ผ๋ก ๋น๊ต

- ImagePiece๋ ์ ์ฒด ํ ํฐ์ 13%๋ง ๋จ๊ธฐ๊ณ ๋ ์ ํ๋๋ฅผ ์ ์ง
- ๋์ผํ ์ฑ๋ฅ ๊ธฐ์ค์์ 30% ์ด์ ๋น ๋ฅธ ์ถ๋ก ์๋๋ฅผ ๋ฌ์ฑ
- โ์๋ฏธ ์๋ ํ ํฐ์ ๋ ์ ํํ ์๋ณํด ๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธโ
Table 4 - Random Masking Noise Robustness

๋ ธ์ด์ฆ๋ ๊ฐ๋ ค์ง ์์ญ์ ๋ํ ๊ฒฌ๊ณ ์ฑ(robustness) ๊ฒ์ฆ
- ํ ์คํธ ์ด๋ฏธ์ง์ ๋ฌด์์ 16ร16 ๋ง์คํฌ 7~50๊ฐ ์ถ๊ฐ
- โ์๋ฏธ ๋จ์๋ก ๋ฌถ์ธ ํ ํฐ์ด ๋ ๊ฒฌ๊ณ ํ global representationโ
Table 5 - Token Attentiveness ๋ณํ
โ์๋ฏธ ์๋ ํ ํฐ๋ ๋ณํฉ ํ ์๋ฏธ๊ฐ ์๊ธฐ๋ฉด ๋ค์ ์ค์ํด์ง๋คโ

- ์ด์ layer์์ inattentive(๋น์ค์)๋ก ํ๋จ๋์๋ ํ ํฐ ์ค ๋ค์ layer์์ attentive(์ค์)๋ก ๋ฐ๋ ๋น์จ
- re-tokenization ๋๋ถ์ ์๋ฏธ ์๋ ํ ํฐ์ด ์๋ฏธ ๋จ์๋ก ๋ณํฉ๋๋ฉด์ semantic importance๋ฅผ ํ๋ณต
Table 6 & 7 - Token Similarity
๋ณํฉ๋ ํ ํฐ ์(token pairs) ๋ค์ feature cosine similarity

ToMe: layer๊ฐ ๊น์ด์ง์๋ก ์ ์ฌ๋๊ฐ ๋จ์ด์ ธ ์ ๋ณด ํฌ์ ๋ฐ์,
ImagePiece: ์ ๋ณด ์ผ๊ด์ฑ ๋ณด์กด
์ฒซ๋ฒ์งธ layer์์ ๋ณํฉ๋ ํ ํฐ ์ค โ์ค์ ํ ํฐโ ๋น์จ

โ ๊ธฐ์กด merging ๋ฐฉ์์ ์ค์ํ ํ ํฐ์ ๋๋ฌด ์์ฃผ ๋ณํฉํจ.
๋ฐ๋ฉด ImagePiece๋ bottom-k๋ง ๋ณํฉํ๋ฏ๋ก semantic dilution ๋ฐฉ์ง.
Table 8 - Local Coherence ํจ๊ณผ

โ ๊ณต๊ฐ์ ์ผ๋ก ๊ฐ๊น์ด ํจ์น๋ผ๋ฆฌ ์๋ฏธ ๋จ์๋ก ๋ฌถ์ธ๋ค
| Accuracy (%) | |
|---|---|
| ImagePiece (no local bias) | 79.81 |
| Full ImagePiece (with local coherence) | 80.22 |
โ local coherence module ์ค๊ณ๊ฐ ํจ๊ณผ ์์.
Table 9 - Compatibility ์คํ

๊ธฐ์กด pruningยทmerging ๊ตฌ์กฐ์ ImagePiece๋ฅผ ๋จ์ ์ถ๊ฐํด๋ ์ ํ๋, ์๋ ํฅ์
โ ๋ชจ๋ํ์ผ๋ก ์ฝ์ ๊ฐ๋ฅํ ํ์ฅ์ฑ ๋์ ๊ตฌ์กฐ
Limitation & Future Work
๋ ผ๋ฌธ์๋ ์์ง๋ง ๋ด๊ฐ ์๊ฐํด๋ณธ ์ ๋ค
Patch ํฌ๊ธฐ์ ๊ตฌ์กฐ์ ๋ฏผ๊ฐ
๋ชจ๋ธ๋ง๋ค ์ต์ ์ Patch ํฌ๊ธฐ๊ฐ ๋ค๋ฅผ ์ ์๋๋ฐ, ํจ์น ํฌ๊ธฐ๊ฐ ์๊ฑฐ๋ ํฌ๋ค๋ฉด ์๊ณ ๋ฆฌ์ฆ์ด ์ ์๋ํ์ง ์์ ๊ฒ ๊ฐ๋ค.
(๋ ผ๋ฌธ์์๋ 16x16 ์ฌ์ฉ)
โ ์ต๊ทผ์ ๋ด๊ฐ ์ ์ถํ ๋ ผ๋ฌธ์์๋ ์ด์๊ฐ์ Limitation์ด ์์๋ค.
future work
- Feature map ํด์๋์ ๋ฐ๋ผ ๋ณํฉ granularity๋ฅผ ์๋ ์กฐ์
- Local coherence module์ receptive field๋ฅผ patch size์ ๋ง๊ฒ ์กฐ์
Semantic ๊ธฐ์ค์ด attention ๊ธฐ๋ฐ
์๋ฏธ ์ ์๊ฐ attention score์๋ง ์์กด
โ ๋ณต์กํ ์ฅ๋ฉด(๋ค์ค ๊ฐ์ฒด ์ด๋ฏธ์ง)์์๋ ํ ํฐ ๋ณํฉ์ด ๋ถ์ ํํ ๊ฐ๋ฅ์ฑ ์กด์ฌ.
future work
- attention ์ธ์๋ spatial, contrastive, objectness ์ ๋ณด๋ฅผ ๊ฒฐํฉํ์ฌ ํ ํฐ ์๋ฏธ ํ๊ฐ