Back to Blog List

PixArt-ฮฃ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

โ†Paper Review

ArXivhttps://arxiv.org/abs/2403.04692
Project Pagehttps://pixart-alpha.github.io/PixArt-sigma-project/
Github Codehttps://github.com/PixArt-alpha/PixArt-sigma
Affiliation Huawei Noahโ€™s Ark Lab, Dalian University of Technology, HKU, HKUST

๐Ÿ’ก

Key Differentiator

  • ๊ธฐ์กด ์—ฐ๊ตฌ์˜€๋˜ PixArt-ฮฑ์—์„œ ์ตœ์ ํ™”๋ฅผ ํ†ตํ•ด 4K ์ดˆ๊ณ ํ•ด์ƒ๋„๊นŒ์ง€ ๊ฐ€๋Šฅํ•˜๋„๋ก ์—ฐ๊ตฌ
  • 4K๋ฅผ transformer๋ฅผ ํ™œ์šฉํ•ด directly๋กœ ํ•œ๋ฒˆ์— ์ƒ์„ฑ

2. Related Work

PixArt-ฮฑ (ICLR 2024 Spotlight)

  • ์ตœ์ดˆ์˜ Transformer ๊ธฐ๋ฐ˜ Diffusion Model (DiT)๋กœ 1024ร—1024 ํ•ด์ƒ๋„๊นŒ์ง€ ์ƒ์„ฑ ๊ฐ€๋Šฅ

Stable Diffusion XL (SDXL, 2023)

  • Latent Diffusion Model (LDM) ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ 1024ร—1024 ์ด์ƒ์˜ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ฐ€๋Šฅ

GigaGAN (Adobe, 2023)

  • GAN ๊ธฐ๋ฐ˜ ์ดˆ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ (1024px ์ด์ƒ ์ง€์›)

LLaVA (Visual Instruction Tuning, 2023)

  • ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์ •๋ ฌ์„ ํ•™์Šตํ•˜์—ฌ ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ์„ค๋ช…(์บก์…˜)์„ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ

DALLยทE 3 (OpenAI, 2023)

  • GPT-4 ๊ธฐ๋ฐ˜ ํ…์ŠคํŠธ ์ดํ•ด๋ ฅ์„ ํ™œ์šฉํ•˜์—ฌ ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋” ์ •๋ฐ€ํ•˜๊ฒŒ ๋ฐ˜์˜

3. Framework

3.1 Data Analysis

Data
Internal-ฮฑ14M
Internal-ฮฃ33M>=1K (33M)
real photo 4K (8M)
SD v1.5
(open-source)
2B

a ๋•Œ๋ณด๋‹ค ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์ด ๋Š˜์—ˆ๊ณ , 4K real photo๋„ ์ถ”๊ฐ€ํ•จ.

ํ•˜์ง€๋งŒ SD v1.5๊ฐ€ 2B ๋ฐ์ดํ„ฐ์ธ๊ฑธ ๊ฐ์•ˆํ•˜๋ฉด ์•„์ฃผ ์ œํ•œ์ ์ธ ๋ฐ์ดํ„ฐ.

ํ•˜์ง€๋งŒ ํšจ๊ณผ์ ์œผ๋กœ trainingํ•จ.

์ด๋ฏธ์ง€์˜ ์˜ˆ์ˆ ์  ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•˜๋Š” Aesthetic Scoring Model(AES)์„ ์‚ฌ์šฉํ•˜์—ฌ 2M(200๋งŒ ์žฅ)์˜ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€ ์„ ๋ณ„.

โ†’ ํ•ด์ƒ๋„๊ฐ€ ๋†’์•„์งˆ์ˆ˜๋ก ๋ชจ๋ธ์˜ ์ถฉ์‹ค๋„(ํ”„๋ ˆ์…ฐ ์ดˆ์  ๊ฑฐ๋ฆฌ(FID) [18])์™€ ์˜๋ฏธ์  ์ •๋ ฌ(CLIP ์ ์ˆ˜)์ด ํ–ฅ์ƒ

Better Text-Image Alignment

ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ(์„ค๋ช…)์™€ ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ผ์น˜ํ•˜๋Š”์ง€

์ฆ‰, ์‚ฌ์šฉ์ž๊ฐ€ ์ž…๋ ฅํ•œ ํ…์ŠคํŠธ(prompt)์™€ ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•˜๊ฒŒ ๋Œ€์‘ํ•˜๋Š”์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ๊ฐœ๋…


PixArt-ฮฑ ๋Š” LLaVa๋ฅผ ์‚ฌ์šฉํ•˜์˜€๊ณ , PixArt-ฮฃ๋Š” Share-Captioner ์‚ฌ์šฉ

ํ•ญ๋ชฉLLaVAShare-Captioner
๊ธฐ๋ฐ˜ ๋ชจ๋ธCLIP + LLaMAGPT-4V (GPT-4 with Vision)
ํ…์ŠคํŠธ ์ƒ์„ฑ๋น„๊ต์  ๋‹จ์ˆœ๋” ๊ธธ๊ณ  ์„ธ๋ฐ€ํ•œ ์„ค๋ช…
์ •ํ™•๋„๊ฐ€๋” ํ™˜๊ฐ ๋ฌธ์ œ ๋ฐœ์ƒ๋” ๋†’์€ ์ •ํ™•๋„
์ด๋ฏธ์ง€ ๋””ํ…Œ์ผ ๋ฐ˜์˜์ œํ•œ์  (๋‹จ์ˆœ ์„ค๋ช…)๋” ์ •๋ฐ€ํ•œ ๊ฐ์ฒด ๋ฐ ๊ด€๊ณ„ ์„ค๋ช…
์บก์…˜ ํ’ˆ์งˆ์ผ๋ฐ˜์ ์ธ ์„ค๋ช… ์ˆ˜์ค€๊ณ ํ’ˆ์งˆ, ๊ตฌ์ฒด์ ์ธ ๋ฌ˜์‚ฌ ๊ฐ€๋Šฅ

๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ™˜๊ฐ (Hallucinations)๊ฐ€ ๋ฐœ์ƒํ–ˆ์—ˆ์Œ

Blog Image
ํ•ญ๋ชฉPixArt-ฮฑPixArt-ฮฃ
ํ…์ŠคํŠธ ํ•ด์„ ๊ธธ์ด120 ํ† ํฐ300 ํ† ํฐ (2.5๋ฐฐ ์ฆ๊ฐ€)
์บก์…˜ ์ƒ์„ฑ ๋ชจ๋ธLLaVA (๋‹จ์ˆœํ•จ)Share-Captioner (์ •ํ™•ํ•œ ์„ค๋ช…)
CLIP Score0.27870.2797 (ํ–ฅ์ƒ๋จ)
ํ™˜๊ฐ ๋ฌธ์ œ ํ•ด๊ฒฐ์ผ๋ถ€ ์กด์žฌํ™˜๊ฐ ๊ฐ์†Œ (๋” ์ •๋ฐ€ํ•œ ์บก์…˜ ์‚ฌ์šฉ)

PixArt-ฮฃ๋Š” ๋” ๊ธด ๋ฌธ์žฅ์„ ํ•ด์„ํ•˜๊ณ , ๋” ์ •๊ตํ•œ ์บก์…˜์„ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ •๋ ฌ ์„ฑ๋Šฅ์„ ๋†’์˜€์Œ.

Share-Captioner๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ๊ฐ„ ์ •๋ณด ์ผ์น˜๋„๋ฅผ ๊ฐœ์„ ํ•จ.

ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์„ฑ (High-Quality Evaluation Dataset)

  • ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ์‚ฌ์šฉํ•˜๋Š” MSCOCO ๋ฐ์ดํ„ฐ์…‹์€ ์˜ˆ์ˆ ์  ํ’ˆ์งˆ๊ณผ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ •๋ ฌ์„ ํ‰๊ฐ€ํ•˜๊ธฐ์— ์ถฉ๋ถ„ํ•˜์ง€ ์•Š์Œ.
  • ๋”ฐ๋ผ์„œ PixArt-ฮฃ๋Š” ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์…‹(30,000๊ฐœ ์ƒ˜ํ”Œ) ๊ตฌ์ถ•.
  • ํ‰๊ฐ€ ํ•ญ๋ชฉ:
    1. Frรฉchet Inception Distance (FID) โ†’ ์ด๋ฏธ์ง€ ํ’ˆ์งˆ ํ‰๊ฐ€
    1. CLIP Score โ†’ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ •๋ ฌ ์„ฑ๋Šฅ ํ‰๊ฐ€
Blog Image

3.2 Efficient DiT Design

Key-Value (KV) Token Compression ๊ธฐ๋ฒ•

๊ธฐ์กด Attention ์—ฐ์‚ฐ ๋ฌธ์ œ

  • Self-Attention์€ Query(Q), Key(K), Value(V)์˜ ๊ณฑ์„ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์ด๋ฏ€๋กœ,ํ† ํฐ ๊ฐœ์ˆ˜๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ์—ฐ์‚ฐ๋Ÿ‰์ด O(Nยฒ)์œผ๋กœ ์ฆ๊ฐ€ํ•จ.
  • ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•: Key์™€ Value ํ† ํฐ์„ ์••์ถ•ํ•˜์—ฌ ์—ฐ์‚ฐ๋Ÿ‰์„ ์ค„์ž„.

PixArt-ฮฃ์˜ KV Token Compression ๋ฐฉ์‹

  • PixArt-ฮฃ (ํ† ํฐ ์••์ถ• ์ ์šฉ):
    • Key(K)์™€ Value(V)๋ฅผ Stride 2์˜ Group Convolution์„ ์‚ฌ์šฉํ•ด ์••์ถ•
    • ์ด๋ฅผ ํ†ตํ•ด ํ† ํฐ ๊ฐœ์ˆ˜๋ฅผ N โ†’ N/R^2 ์œผ๋กœ ์ค„์ž„
    • ์ •ํ™•๋„๊ฐ€ ํฌ๊ฒŒ ๋–จ์–ด์ง€์ง€ ์•Š๋Š” ์„ ์—์„œ R์„ ์กฐ์ • (1~4)ํ•˜๊ธฐ
    • ์ตœ์ข…์ ์œผ๋กœ ์—ฐ์‚ฐ๋Ÿ‰์„ ๊ธฐ์กด ๋Œ€๋น„ ์•ฝ 34% ์ ˆ๊ฐ

ํ•ต์‹ฌ ํšจ๊ณผ

  • 4K ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์†๋„ ํ–ฅ์ƒ (์—ฐ์‚ฐ๋Ÿ‰ ๊ฐ์†Œ)
  • ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰ ๊ฐ์†Œ โ†’ ๋” ์ž‘์€ GPU์—์„œ๋„ ์‹คํ–‰ ๊ฐ€๋Šฅ
  • ๊ธฐ์กด PixArt-ฮฑ ๋ชจ๋ธ์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์—…๊ทธ๋ ˆ์ด๋“œ ๊ฐ€๋Šฅ (๊ธฐ์กด ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ™œ์šฉ)

Blog Image
Blog Image

3.3 Weak-to-Strong Training Strategy

PixArt-ฮฃ์˜ Weak-to-Strong Training์€ ๊ธฐ์กด ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋น ๋ฅด๊ฒŒ ์ ์‘ํ•˜๋„๋ก ์„ค๊ณ„๋จ.

์ด ๊ณผ์ •์—์„œ 3๋‹จ๊ณ„์˜ ํ•™์Šต ์ „๋žต์ด ์ ์šฉ๋จ.

(1) VAE ์ ์‘ (VAE Adaptation)

  • PixArt-ฮฑ์—์„œ ์‚ฌ์šฉํ•˜๋˜ ๊ธฐ์กด VAE๋ฅผ Stable Diffusion XL(SDXL)์˜ VAE๋กœ ๊ต์ฒด
  • VAE ๊ต์ฒด ํ›„ ๋น ๋ฅธ ์ ์‘์„ ์œ„ํ•ด 2K Training Steps ๋งŒ์— ์ˆ˜๋ ดํ•˜๋„๋ก ํ•™์Šต ์ „๋žต ์ ์šฉ.
  • ์ƒˆ๋กœ์šด VAE ์ ์šฉ ํ›„์—๋„ ๊ธฐ์กด ๋ชจ๋ธ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์žฌ์‚ฌ์šฉํ•˜์—ฌ ๋น ๋ฅด๊ฒŒ ํ•™์Šต ๊ฐ€๋Šฅ.
Blog Image

(2) ํ•ด์ƒ๋„ ์—…๊ทธ๋ ˆ์ด๋“œ (Resolution Upscaling)

  • 256px โ†’ 512px โ†’ 1024px โ†’ 4K๋กœ ์ ์ง„์ ์œผ๋กœ ํ•ด์ƒ๋„๋ฅผ ์ฆ๊ฐ€์‹œํ‚ค๋ฉฐ ํ•™์Šต.

  • PE Interpolation(์œ„์น˜ ์ž„๋ฒ ๋”ฉ ๋ณด๊ฐ„๋ฒ•)์„ ์ ์šฉํ•˜์—ฌ, ๊ธฐ์กด ํ•ด์ƒ๋„์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ƒˆ ํ•ด์ƒ๋„์—์„œ๋„ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋„๋ก ์กฐ์ •.
    • ๋ณด๊ฐ„๋ฒ• (Interpolation)์€ย ์•Œ๋ ค์ง„ ๊ฐ’์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐ’์„ ๊ณ„์‚ฐํ•˜๋Š” ํ”„๋กœ์„ธ์Šค
    • Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ(์˜ˆ: DiT, ViT ๋“ฑ)์€ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ๊ฐ ์œ„์น˜ ์ •๋ณด๋ฅผ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ์‚ฌ์šฉ.
    • ๋ชจ๋ธ์ด 256ร—256์—์„œ ํ•™์Šต๋˜์—ˆ๋‹ค๋ฉด, 256ร—256 ํ•ด์ƒ๋„์— ์ตœ์ ํ™”๋œ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ํ•™์Šตํ•จ.
    • ํ•˜์ง€๋งŒ ํ•ด์ƒ๋„๋ฅผ 1024ร—1024๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด, ๊ธฐ์กด 256ร—256 ์œ„์น˜ ์ž„๋ฒ ๋”ฉ๊ณผ ๊ตฌ์กฐ๊ฐ€ ๋‹ฌ๋ผ์ ธ ๋ชจ๋ธ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ์ €ํ•˜๋จ.
    • ๊ธฐ์กด ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ 1024ร—1024 ํฌ๊ธฐ๋กœ ๋ณด๊ฐ„(interpolation)
    • ์ฆ‰, 256๊ฐœ์˜ ๊ฐ’์„ 1024๊ฐœ๋กœ ํ™•์žฅํ•˜๋Š” ๊ณผ์ •์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋งค๋„๋Ÿฌ์šด ๊ฐ’์œผ๋กœ ๋ณ€ํ™˜๋จ.
    • ์ด๋ฅผ ํ†ตํ•ด ์ƒˆ๋กœ์šด ํ•ด์ƒ๋„์—์„œ๋„ ๊ธฐ์กด ๋ชจ๋ธ์˜ ๊ณต๊ฐ„ ์ •๋ณด๊ฐ€ ์œ ์ง€๋จ.

  • ๋‹จ 1000 Training Steps๋งŒ์œผ๋กœ๋„ ํ•ด์ƒ๋„ ์ฆ๊ฐ€์— ์ ์‘ ๊ฐ€๋Šฅ.
Blog Image

(3) KV Token Compression ๋„์ž… (์—ฐ์‚ฐ ์ตœ์ ํ™”)

  • PixArt-ฮฃ ๋ชจ๋ธ์€ KV Token Compression์„ ์ ์šฉํ–ˆ์Œ
  • ํ•˜์ง€๋งŒ ๊ธฐ์กด ๋ชจ๋ธ๊ณผ ๊ตฌ์กฐ๊ฐ€ ๋‹ฌ๋ผ์„œ ์„ฑ๋Šฅ ์ €ํ•˜ ์œ„ํ—˜์ด ์žˆ์Œ.
  • PixArt-ฮฃ์—์„œ๋Š” ๊ธฐ์กด ๋ชจ๋ธ์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ ์‘ํ•˜๋„๋ก "Conv Avg Init." ์ „๋žต ์ ์šฉ.

ํ‰๊ท  ์—ฐ์‚ฐ(Averaging) ๊ธฐ๋ฐ˜ ์ดˆ๊ธฐํ™”

  • Conv Avg Init์€ ๊ฐ€์ค‘์น˜ ๊ฐ’์„ 1/Rยฒ๋กœ ์„ค์ •ํ•˜์—ฌ, ๊ธฐ์กด ์ •๋ณด๋ฅผ ์ตœ๋Œ€ํ•œ ์œ ์ง€ํ•˜๋ฉด์„œ ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ์ „ํ™˜ํ•จ.
  • ์ฆ‰, ๋‹จ์ˆœํžˆ ์••์ถ•ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๊ธฐ์กด ๊ณต๊ฐ„ ์ •๋ณด๋ฅผ ์ตœ๋Œ€ํ•œ ๋ณด์กดํ•˜๋Š” ๋ฐฉ์‹.

  • ์ดˆ๊ธฐ์—๋Š” ์••์ถ• ์—†์ด ํ•™์Šต ํ›„, ํ•™์Šต์ด ์•ˆ์ •ํ™”๋˜๋ฉด KV Compression์„ ์ ์šฉํ•˜์—ฌ ์—ฐ์‚ฐ๋Ÿ‰ ๊ฐ์†Œ.
  • 4K ์ด๋ฏธ์ง€ ์ƒ์„ฑ ์‹œ ์—ฐ์‚ฐ๋Ÿ‰ 34% ์ ˆ๊ฐ.

๊ฒฐ๊ณผ์ ์œผ๋กœ, ๊ธฐ์กด PixArt-ฮฑ ๋Œ€๋น„ ์ ์€ ์—ฐ์‚ฐ๋Ÿ‰๊ณผ ๋น ๋ฅธ ํ•™์Šต์œผ๋กœ 4K ์ด๋ฏธ์ง€ ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•ด์ง.

Blog Image

4. Experiment

4.1 Implementation Details (๊ตฌํ˜„ ์„ธ๋ถ€์‚ฌํ•ญ)

1. ๋ชจ๋ธ ๊ตฌ์„ฑ

ํ…์ŠคํŠธ ์ธ์ฝ”๋”

  • Flan-T5-XXL ์‚ฌ์šฉ (Imagen ๋ฐ PixArt-ฮฑ์™€ ๋™์ผ)
  • ๊ธฐ์กด ๋ชจ๋ธ์—์„œ 120๊ฐœ ํ† ํฐ์„ ์‚ฌ์šฉํ•˜๋˜ ๊ฒƒ์„ 300๊ฐœ ํ† ํฐ๊นŒ์ง€ ํ™•์žฅํ•˜์—ฌ ๋” ์ •๋ฐ€ํ•œ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ •๋ ฌ ๊ฐ€๋Šฅ.

VAE (Variational Autoencoder) ์ ์šฉ

  • Stable Diffusion XL(SDXL)์˜ VAE ์‚ฌ์šฉ
  • ๋” ๋†’์€ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€ ๋””์ฝ”๋”ฉ ๊ฐ€๋Šฅ โ†’ ์„ธ๋ฐ€ํ•œ ๋””ํ…Œ์ผ ๋ณด์กด

๊ธฐ๋ฐ˜ ๋ชจ๋ธ

  • PixArt-ฮฑ๋ฅผ ๋ฒ ์ด์Šค ๋ชจ๋ธ๋กœ ์‚ฌ์šฉ
  • 256px ์‚ฌ์ „ ํ•™์Šต๋œ ์ฒดํฌํฌ์ธํŠธ๋ฅผ ํ™œ์šฉํ•˜์—ฌ 4K๊นŒ์ง€ ํ™•์žฅ

KV Token Compression ์ ์šฉ

  • ์—ฐ์‚ฐ๋Ÿ‰ 34% ์ ˆ๊ฐ
  • ์ดˆ๊ณ ํ•ด์ƒ๋„(4K) ์ด๋ฏธ์ง€ ์ƒ์„ฑ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•จ

2. ํ•™์Šต ํ™˜๊ฒฝ ๋ฐ ํ•˜๋“œ์›จ์–ด

ํ›ˆ๋ จ GPU ํ™˜๊ฒฝ

  • 1K ๋ชจ๋ธ ํ•™์Šต: 32 V100 GPUs ์‚ฌ์šฉ
  • 2K & 4K ๋ชจ๋ธ ํ•™์Šต: 16 A100 GPUs ์‚ฌ์šฉ

์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜

  • CAME Optimizer ์‚ฌ์šฉ (AdamW ๋Œ€์‹ )
  • ํ•™์Šต๋ฅ : 2e-5 (๊ณ ์ • Learning Rate ์‚ฌ์šฉ)
  • Weight Decay: 0

Position Embedding Interpolation (PE Interp.) ์ ์šฉ

  • ๋‚ฎ์€ ํ•ด์ƒ๋„์—์„œ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ๊ณ ํ•ด์ƒ๋„๋กœ ๋ณ€ํ™˜ํ•  ๋•Œ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ์„ ๋ณด๊ฐ„(interpolation)ํ•˜์—ฌ ์ ์šฉ.
  • ์ด๋ฅผ ํ†ตํ•ด ๊ณ ํ•ด์ƒ๋„๋กœ ํ™•์žฅ ์‹œ ์„ฑ๋Šฅ ์ €ํ•˜ ์—†์ด ๋น ๋ฅด๊ฒŒ ์ ์‘ ๊ฐ€๋Šฅ.

3. ํ•™์Šต ๋ฐ์ดํ„ฐ ๋ฐ ํ›ˆ๋ จ ๊ณผ์ •

ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹

  • ์ด 33M(3,300๋งŒ ๊ฐœ)์˜ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ ์‚ฌ์šฉ
  • 1K ํ•ด์ƒ๋„ ์ด์ƒ์˜ ๋ฐ์ดํ„ฐ๋งŒ ํฌํ•จ
  • 4K ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€ 2.3M(230๋งŒ ๊ฐœ) ํฌํ•จ
  • Aesthetic Scoring Model(AES) ์ ์šฉํ•˜์—ฌ ๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€ ์„ ๋ณ„

ํ›ˆ๋ จ ๊ณผ์ •

  • 256px โ†’ 512px โ†’ 1024px โ†’ 4K ํ•ด์ƒ๋„๋กœ ์ ์ง„์  ์—…์Šค์ผ€์ผ๋ง ์ ์šฉ
  • VAE ๊ต์ฒด ํ›„ 2K Training Steps ๋‚ด ๋น ๋ฅด๊ฒŒ ์ ์‘
  • PE Interpolation์„ ์ ์šฉํ•˜์—ฌ ๊ณ ํ•ด์ƒ๋„์—์„œ ์ถ”๊ฐ€ ํ•™์Šต ๋น„์šฉ ์ ˆ๊ฐ

ํ•™์Šต ๋น„์šฉ ์ ˆ๊ฐ

  • ๊ธฐ์กด PixArt-ฮฑ ๋Œ€๋น„ ํ›ˆ๋ จ ๋น„์šฉ 9%๋งŒ ์‚ฌ์šฉํ•˜์—ฌ 1K ์ƒ์„ฑ ๊ฐ€๋Šฅ
  • KV Compression๊ณผ Weak-to-Strong Training์„ ๊ฒฐํ•ฉํ•˜์—ฌ GPU ๋น„์šฉ ์ ˆ๊ฐ

4.2 ์‹คํ—˜ ๊ฒฐ๊ณผ

์ด๋ฏธ์ง€ ํ’ˆ์งˆ ๋น„๊ต (Qualitative Evaluation)

PixArt-ฮฃ๋Š” ํฌํ† ๋ฆฌ์–ผ๋ฆฌ์ฆ˜(Photorealism), ๋””ํ…Œ์ผ ์ˆ˜์ค€, ์Šคํƒ€์ผ ๋‹ค์–‘์„ฑ ์ธก๋ฉด์—์„œ ์ด์ „ ๋ชจ๋ธ๋ณด๋‹ค ๊ฐœ์„ ๋จ.

์•„๋ž˜์™€ ๊ฐ™์€ ๋ชจ๋ธ๋“ค๊ณผ ๋น„๊ต๋จ:

Blog Image

PixArt-ฮฑ vs PixArt-ฮฃ

ํ•ญ๋ชฉPixArt-ฮฑ (๊ธฐ์กด)PixArt-ฮฃ (๊ฐœ์„ )
์ตœ๋Œ€ ํ•ด์ƒ๋„1K (1024ร—1024)4K (3840ร—2160) ์ง€์›
์—ฐ์‚ฐ๋Ÿ‰ ์ตœ์ ํ™”์—†์ŒKV Token Compression ์ ์šฉ (์—ฐ์‚ฐ๋Ÿ‰ 34% ๊ฐ์†Œ)
VAE ๋ชจ๋ธ๊ธฐ๋ณธ VAESDXL VAE๋กœ ๋ณ€๊ฒฝ (๊ณ ํ’ˆ์งˆ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๊ฐ€๋Šฅ)
ํ•™์Šต ์ „๋žต์ผ๋ฐ˜ ํ•™์ŠตWeak-to-Strong Training (๊ธฐ์กด ๋ชจ๋ธ ํ™œ์šฉํ•˜์—ฌ ๋น ๋ฅด๊ฒŒ ํ•™์Šต)
ํ…์ŠคํŠธ ๊ธธ์ด120 ํ† ํฐ300 ํ† ํฐ์œผ๋กœ ํ™•์žฅ (๋” ์ •๋ฐ€ํ•œ ํ…์ŠคํŠธ-์ด๋ฏธ์ง€ ์ •๋ ฌ ๊ฐ€๋Šฅ)
ํ›ˆ๋ จ ๋น„์šฉ๋†’์Œ๊ธฐ์กด ๋Œ€๋น„ GPU ๋น„์šฉ 9%๋กœ ์ ˆ๊ฐ