Swin Transformer
Swin Transformer๋ Vision Transformer(ViT) ๊ณ์ด์ ๋ชจ๋ธ๋ก, Transformer ๊ธฐ๋ฐ์ self-attention ๋ฉ์ปค๋์ฆ์ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ์ต์ ํํ ๋ชจ๋ธ์ ๋๋ค. Swin Transformer๋ ํนํ ์ปดํจํฐ ๋น์ ์์ ์์ ๊ธฐ์กด CNN ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ์์ผ๋ฉฐ, ํฌํธํ ํ์ง์ ๊ฐ์ ์์ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ๋ฌธ์ ์์๋ ํจ๊ณผ์ ์ ๋๋ค.
Swin Transformer์ ์ฃผ์ ํน์ง
Shifted Window Self-Attention:
Swin Transformer๋ ๊ธฐ์กด ViT์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด Shifted Window Self-Attention ๋ฉ์ปค๋์ฆ์ ๋์ ํ์ต๋๋ค. ์ผ๋ฐ์ ์ธ Transformer ๋ชจ๋ธ์ ์ด๋ฏธ์ง ์ ์ฒด์์ self-attention์ ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ ๋งค์ฐ ๋์ ๊ณ์ฐ ๋น์ฉ์ด ๋ฐ์ํ๋ ๋ฐ๋ฉด, Swin Transformer๋ ์ด๋ฏธ์ง๋ฅผ ์ฌ๋ฌ ์์ ์๋์ฐ๋ก ๋ถํ ํ๊ณ ๊ทธ ์์์ self-attention์ ๊ณ์ฐํฉ๋๋ค.
๋ํ, ๊ฐ ๋จ๊ณ๋ง๋ค ์๋์ฐ๋ฅผ ์ฝ๊ฐ์ฉ ์ด๋์ํค๋ ๋ฐฉ์(shifted window)์ ์ฌ์ฉํ์ฌ ์๋์ฐ ๊ฐ์ ์ ๋ณด๋ฅผ ๊ตํํ๋ฉฐ, ์ด๋ ๋ชจ๋ธ์ด ๋ก์ปฌ๋ฟ๋ง ์๋๋ผ ๊ธ๋ก๋ฒํ ๋ฌธ๋งฅ์ ํ์ ํ๋ ๋ฐ ๋์์ ์ค๋๋ค.
๊ณ์ธต์ ๊ตฌ์กฐ:
Swin Transformer๋ ์ด๋ฏธ์ง์ ๊ณ์ธต์ ํํ์ ํ์ตํฉ๋๋ค. ์ด๋ ์์ ํจ์น๋ถํฐ ์์ํด ์ ์ง์ ์ผ๋ก ํฐ ํจ์น๋ก ํ์ฅํ๋ ๋ฐฉ์์ ๋ฐ๋ฅด๋ฉฐ, ์ด๋ CNN์ ํ๋ง๊ณผ ๋น์ทํ๊ฒ ๋์ํฉ๋๋ค. ์ด๋ฌํ ๊ตฌ์กฐ๋ ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ํจ๊ณผ์ ์ด๋ฉฐ, ์์ ํจ์น๋ก๋ถํฐ ํฐ ๊ตฌ์กฐ์ ์ ๋ณด๊น์ง ์บก์ฒํ ์ ์์ต๋๋ค.
๊ณ์ฐ ํจ์จ์ฑ:
๊ธฐ์กด ViT ๋ชจ๋ธ์ ๋ชจ๋ ํจ์น ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ณ์ฐํด์ผ ํ๋ฏ๋ก ๋งค์ฐ ๋์ ์ฐ์ฐ ๋น์ฉ์ด ๋ค์ง๋ง, Swin Transformer๋ ์๋์ฐ ๊ธฐ๋ฐ์ผ๋ก ์ฐ์ฐ์ ์ ํํ์ฌ ๋ ํจ์จ์ ์ธ ๊ณ์ฐ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ์ด๋ก ์ธํด ๋ํ ์ด๋ฏธ์ง์์๋ ๋ ์ ์ ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ๋์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ฐํํ ์ ์์ต๋๋ค.
์ ์ฐํ ์ ์ฉ:
Swin Transformer๋ ๊ฐ์ฒด ํ์ง, ์ด๋ฏธ์ง ๋ถํ , ์ด๋ฏธ์ง ๋ถ๋ฅ์ ๊ฐ์ ๋ค์ํ ์ปดํจํฐ ๋น์ ์์ ์ ์ ์ฐํ๊ฒ ์ ์ฉ๋ ์ ์์ต๋๋ค. ํนํ ํฌํธํ ํ์ง์ ๊ฐ์ ์ธ๊ทธ๋ฉํ ์ด์ ์์ ์์๋ ์ ํํ ๊ฒฝ๊ณ ํ์ง๊ฐ ์ค์ํ๋ฐ, Swin Transformer๋ ์ด๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
Swin Transformer์ ์ํคํ
์ฒ
Swin Transformer์ ์ํคํ ์ฒ๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์์ ํจ์จ์ฑ๊ณผ ์ฑ๋ฅ์ ๋์์ ์ก๊ธฐ ์ํด Transformer ๋ชจ๋ธ์ ๊ตฌ์กฐ๋ฅผ ๋ณํํ ๊ฒ์ ๋๋ค. Vision Transformer(ViT)์ ๋จ์ ์ ๊ทน๋ณตํ๊ณ , CNN์ด ์ ๊ณตํ๋ ๊ณ์ธต์ ํน์ฑ ํ์ต๊ณผ ์ ์ฌํ ํจ๊ณผ๋ฅผ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์์ ์ป๊ธฐ ์ํด ์ค๊ณ๋์์ต๋๋ค. Swin Transformer๋ ์ฃผ๋ก Shifted Window ๋ฉ์ปค๋์ฆ์ ๋์ ํ๊ณ , ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ํตํด ์ด๋ฏธ์ง์ ๋ฉํฐ์ค์ผ์ผ ํน์ง์ ํ์ตํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค. ์๋๋ Swin Transformer์ ์ํคํ ์ฒ๋ฅผ ๋จ๊ณ๋ณ๋ก ์ค๋ช ํ ๊ฒ์ ๋๋ค.

ํจ์น ๋ถํ ๋ฐ ํจ์น ์๋ฒ ๋ฉ
Swin Transformer์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ๋ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ์ ์์ ํจ์น๋ก ๋๋๋ ๊ฒ์ ๋๋ค. ์ด ๋จ๊ณ๋ ๋ค์๊ณผ ๊ฐ์ด ์งํ๋ฉ๋๋ค.
์ ๋ ฅ ์ด๋ฏธ์ง ํฌ๊ธฐ: $H \times W \times 3$ (์ด๋ฏธ์ง์ ๋์ด H, ๋๋น W, ๊ทธ๋ฆฌ๊ณ 3๊ฐ์ RGB ์ฑ๋)
์ด ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ $(P \times P)$์ ํจ์น๋ก ๋๋์ด $n = \frac{H}{P} \times \frac{W}{P}$๊ฐ์ ํจ์น๋ก ๋ถํ ํฉ๋๋ค.
๊ฐ ํจ์น๋ ํฌ๊ธฐ $P^2 \times 3$์ ๋ฒกํฐ๋ก ๋ณํ๋๋ฉฐ, ์ด ๋ฒกํฐ๋ ์ ํ ๋ณํ์ ํตํด ๊ณ ์ ๋ ์ฐจ์์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ๋ณํ๋ฉ๋๋ค. ์ด ์๋ฒ ๋ฉ ๋ฒกํฐ๊ฐ Transformer์ ์ ๋ ฅ์ด ๋ฉ๋๋ค.
์ด ๊ณผ์ ์ CNN์์ ์ฌ์ฉํ๋ ์ปจ๋ณผ๋ฃจ์ ํํฐ์ ์ ์ฌํ ๋ฐฉ์์ผ๋ก ์ด๋ฏธ์ง์์ ์ง์ญ์ ํน์ง์ ์ถ์ถํ๋ ์ญํ ์ ํฉ๋๋ค.
๊ณ์ธต์ ๊ตฌ์กฐ (Hierarchical Structure)
Swin Transformer๋ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ๋ค์ํ ํฌ๊ธฐ์ ์ค์ผ์ผ์์ ์ ๋ณด๋ฅผ ์ถ์ถํฉ๋๋ค. ์ด ๊ตฌ์กฐ๋ Transformer ๋ธ๋ก๋ค์ด ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉ๋๋ฉฐ, ๊ฐ ๊ณ์ธต๋ง๋ค ์ด๋ฏธ์ง ํด์๋๊ฐ ์ ์ฐจ ์ค์ด๋ค๊ณ ํจ์น ํฌ๊ธฐ๋ ์ฆ๊ฐํฉ๋๋ค.
์ฒ์์๋ ์์ ํจ์น์์ ์ง์ญ์ ํน์ง์ ํ์ตํ๊ณ , ์ ์ฐจ์ ์ผ๋ก ๋ ํฐ ํจ์น์์ ์ ์ญ์ ํน์ง์ ํ์ตํฉ๋๋ค. ์ด๋ CNN์์์ ํ๋ง(pooling)๊ณผ ์ ์ฌํ ์ญํ ์ ํฉ๋๋ค.
๊ณ์ธต์ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ์ 4๊ฐ์ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค.
Stage 1: ์ฒ์ ํจ์น ๋ถํ ํ $P \times P$ ํฌ๊ธฐ์ ํจ์น์์ ์ง์ญ์ ํน์ง์ ํ์ต.
Stage 2: ํจ์น ํฌ๊ธฐ๋ฅผ 2๋ฐฐ๋ก ์ฆ๊ฐ์ํค๊ณ ๋ ํฐ ์์ญ์์ ํน์ง ํ์ต.
Stage 3: ๋ค์ ํจ์น ํฌ๊ธฐ๋ฅผ 2๋ฐฐ๋ก ์ฆ๊ฐ์ํค๋ฉด์ ๋ ์ ์ญ์ ์ธ ํน์ง์ ํ์ต.
Stage 4: ์ต์ข ์ ์ผ๋ก ์ ์ฒด ์ด๋ฏธ์ง์ ์ ์ญ์ ์ ๋ณด๋ฅผ ํ์ต.
์ด ๊ณผ์ ์์ ํจ์น ๋ถํ ๊ณผ ๋ณํฉ์ด ๋ฐ๋ณต๋๋ฉด์, ์ด๋ฏธ์ง์ ๋ค์ํ ํฌ๊ธฐ์ ํด์๋์์ ํน์ง์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์์ต๋๋ค.
Shifted Window Self-Attention
๊ธฐ์กด Vision Transformer(ViT)์์๋ Self-Attention์ด ์ด๋ฏธ์ง ์ ์ฒด์ ํจ์น ๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ์ง๋ง, ์ด๋ ๊ณ์ฐ ๋น์ฉ์ด ๋งค์ฐ ํฌ๋ค๋ ๋จ์ ์ด ์์์ต๋๋ค. Swin Transformer๋ ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด ์๋์ฐ ๊ธฐ๋ฐ Self-Attention์ ์ฌ์ฉํฉ๋๋ค.
์๋์ฐ ๊ธฐ๋ฐ Self-Attention: Swin Transformer๋ ์ด๋ฏธ์ง ํจ์น๋ฅผ ์ฌ๋ฌ ๊ณ ์ ๋ ํฌ๊ธฐ์ ์๋์ฐ๋ก ๋๋๊ณ , ๊ฐ ์๋์ฐ ์์์ Self-Attention์ ์ํํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ฉด ์๋์ฐ ๊ฐ์ ๊ด๊ณ๋ฅผ ๋ฐ๋ก ๊ณ์ฐํ ํ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ๊ณ์ฐ ๋น์ฉ์ด ํฌ๊ฒ ์ค์ด๋ญ๋๋ค.
Shifted Window ๋ฉ์ปค๋์ฆ: ํ ๊ฐ์ง ๋ฌธ์ ๋ ์๋์ฐ ๊ธฐ๋ฐ Self-Attention์ ์ฌ์ฉํ ๊ฒฝ์ฐ, ์๋์ฐ ๊ฐ์ ์ํธ์์ฉ์ด ์ ํ๋๋ค๋ ์ ์ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, Swin Transformer๋ ์ผ์ ํ ์ฃผ๊ธฐ๋ง๋ค ์๋์ฐ๋ฅผ ์ฝ๊ฐ ์ด๋์ํค๋ Shifted Window ๋ฉ์ปค๋์ฆ์ ๋์ ํ์ต๋๋ค.
์ฒซ ๋ฒ์งธ Self-Attention์์๋ ๊ณ ์ ๋ ์๋์ฐ ์์์๋ง ํ์ตํ๊ณ , ๊ทธ๋ค์ Self-Attention ๋จ๊ณ์์๋ ์๋์ฐ๋ฅผ ์ฝ๊ฐ ์ด๋์์ผ์ ์ด์ ์ ๊ณ ๋ ค๋์ง ์์ ํจ์น ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํฉ๋๋ค.
์ด ๋ฉ์ปค๋์ฆ์ ํตํด ๋ชจ๋ธ์ ์ ์ญ์ ๋ฌธ๋งฅ์ ํ์ตํ๋ฉด์๋ ๊ณ์ฐ ๋น์ฉ์ ์ต์ํํ ์ ์์ต๋๋ค.
MLP ํค๋ (Multi-Layer Perceptron Head)
๊ฐ ์๋์ฐ ๋ด์์ Self-Attention์ ์ํํ ํ, Swin Transformer๋ MLP ํค๋๋ฅผ ์ฌ์ฉํด ์ถ๊ฐ์ ์ธ ๋น์ ํ ๋ณํ์ ์ํํฉ๋๋ค. ์ด ๋จ๊ณ๋ Self-Attention์ด ํ์ตํ ํจ์น ๊ฐ์ ๊ด๊ณ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ ๋ณต์กํ ํน์ง์ ํ์ตํฉ๋๋ค. MLP ํค๋๋ ๋ ๊ฐ ์ด์์ Fully Connected ๋ ์ด์ด๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ ํจ์น์ ํํ์ ๋์ฑ ๊ฐํํฉ๋๋ค.
ํจ์น ๋ณํฉ (Patch Merging)
๊ฐ Transformer ๋ธ๋ก์ด ์๋ฃ๋ ๋๋ง๋ค, Swin Transformer๋ ํจ์น ๋ณํฉ(Patch Merging) ๋จ๊ณ๋ฅผ ํตํด ํจ์น ํฌ๊ธฐ๋ฅผ ์ ์ง์ ์ผ๋ก ํค์๋๋ค. ์ด๋ ๊ธฐ์กด CNN์์ ์ฌ์ฉํ๋ ํ๋ง(pooling)๊ณผ ์ ์ฌํ๋ฉฐ, ์ด๋ฅผ ํตํด ๋ ๋์ ๋ ๋ฒจ์ ํน์ง์ ํ์ตํฉ๋๋ค.
ํจ์น ๋ณํฉ์ ์ฐ์๋ ํจ์น๋ค์ ๋ณํฉํ์ฌ ๋ ํฐ ํจ์น๋ก ๋ณํํฉ๋๋ค. ์๋ฅผ ๋ค์ด, $2 \times 2$์ ํจ์น๋ฅผ ํ๋์ ํจ์น๋ก ๋ณํฉํ์ฌ, ํด์๋๋ ์ค์ด๋ฉด์ ํน์ง ๊ณต๊ฐ์ ๋ ๋๊ฒ ํ๋ณดํ ์ ์์ต๋๋ค.
๋ณํฉ๋ ํจ์น๋ ๋ค์ Transformer ๋ธ๋ก์ผ๋ก ์ ๋ฌ๋์ด ํ์ต์ด ๊ณ์๋ฉ๋๋ค.
๋ถ๋ฅ ๋๋ ์ธ๊ทธ๋ฉํ
์ด์
ํค๋
Swin Transformer๋ ๋ง์ง๋ง ๋จ๊ณ์์ ์ผ๋ฐ์ ์ผ๋ก Fully Connected Layer๋ Segmentation Head๋ฅผ ํตํด ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํฉ๋๋ค. ์์ ์ ๋ฐ๋ผ ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ํ์ง, ์ธ๊ทธ๋ฉํ ์ด์ ๋ฑ ๋ค์ํ ์์ ์ ์ฒ๋ฆฌํ ์ ์์ต๋๋ค.
๋ถ๋ฅ ์์ ์์๋ ์ต์ข ํจ์น์ ์ถ๋ ฅ ๋ฒกํฐ๋ฅผ ๋ถ๋ฅ ํค๋์ ์ ๋ฌํ์ฌ ๊ฐ ํด๋์ค์ ๋ํ ์์ธก์ ์ํํฉ๋๋ค.
์ธ๊ทธ๋ฉํ ์ด์ ์์ ์์๋ ๊ฐ ํจ์น์ ํด๋นํ๋ ์ถ๋ ฅ์ Segmentation Head์ ์ ๋ฌํ์ฌ ์ด๋ฏธ์ง์ ๊ฐ ํฝ์ ์ ๋ํ ํด๋์ค๋ฅผ ์์ธกํฉ๋๋ค.
Swin Transformer์ ์ฅ์
ํจ์จ์ ์ธ ๊ณ์ฐ:
Swin Transformer๋ ์๋์ฐ ๊ธฐ๋ฐ self-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ์ฐ์ฐ์ ์ง์ญ์ ์ผ๋ก ์ ํํจ์ผ๋ก์จ, ๊ธฐ์กด Vision Transformer(ViT)๋ณด๋ค ํจ์ฌ ์ ์ ์ฐ์ฐ๋์ผ๋ก ๋์ ์ฑ๋ฅ์ ๋ ๋๋ค. ์ด๋ ํนํ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ ์ค์๊ฐ ์ฒ๋ฆฌ์ ์ ๋ฆฌํฉ๋๋ค.
๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด ์ฒ๋ฆฌ:
Swin Transformer๋ ๊ณ์ธต์ ์ธ ๊ตฌ์กฐ๋ก ์์ ํจ์น์์ ํฐ ํจ์น๋ก ์ ์ง์ ์ผ๋ก ํน์ง์ ์ถ์ถํ๊ธฐ ๋๋ฌธ์, ์์ ๊ฐ์ฒด๋ถํฐ ํฐ ๊ฐ์ฒด๊น์ง ๋ค์ํ ํฌ๊ธฐ์ ๊ฐ์ฒด๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ๋งค์ฐ ํจ๊ณผ์ ์ ๋๋ค. ์ด๋ ํฌํธํ๊ณผ ๊ฐ์ด ํฌ๊ธฐ์ ํํ๊ฐ ๋ค์ํ ์์์ ํ์งํ๋ ๋ฐ ํฐ ๋์์ด ๋ฉ๋๋ค.
๋ก์ปฌ ๋ฐ ๊ธ๋ก๋ฒ ์ ๋ณด ๊ฒฐํฉ:
Shifted Window ๋ฉ์ปค๋์ฆ์ ํตํด ์ง์ญ์ ์ธ ์ ๋ณด(๋ก์ปฌ)์ ์ด๋ฏธ์ง ์ ๋ฐ์ ์ ๋ณด(๊ธ๋ก๋ฒ)๋ฅผ ๊ฒฐํฉํ ์ ์์ด, ๋ ์ ๋ฐํ ํ์ง์ ์ธ๊ทธ๋ฉํ ์ด์ ์ด ๊ฐ๋ฅํฉ๋๋ค. ์ด๋ ์์ ์์ญ์ ๊ฐ์ฒด๋ผ๋ ์ฃผ๋ณ ๋งฅ๋ฝ์ ๊ณ ๋ คํด ์ ํํ ์์น๋ฅผ ์ฐพ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค.
ํ์ฅ์ฑ:
Swin Transformer๋ ์ด๋ฏธ์ง ๋ถ๋ฅ, ๊ฐ์ฒด ํ์ง, ์ธ๊ทธ๋ฉํ ์ด์ ๋ฑ ๋ค์ํ ๋น์ ์์ ์ ์ ์ฉ๋ ์ ์์ผ๋ฉฐ, ๋์ผํ ์ํคํ ์ฒ๋ฅผ ๋ค์ํ ๋ฌธ์ ์ ์ฝ๊ฒ ํ์ฅํ ์ ์์ต๋๋ค. ์ด๋ ์ฌ๋ฌ ์ปดํจํฐ ๋น์ ์์ ์ ์ ์ฐํ๊ฒ ์ฌ์ฉํ ์ ์๋ ํฐ ์ฅ์ ์ ๋๋ค.
๊ณ ํด์๋ ์ด๋ฏธ์ง ์ฒ๋ฆฌ:
๊ณ ํด์๋ ์ด๋ฏธ์ง์์๋ ๊ณ์ฐ ๋ณต์ก๋๋ฅผ ์ค์ด๋ฉด์ ์ฑ๋ฅ์ ์ ์งํ ์ ์์ด, ๋ํ ์ด๋ฏธ์ง์์ ์ธ๋ฐํ ๊ฐ์ฒด๋ฅผ ํ์งํ๋ ์์ ์ ์ ํฉํฉ๋๋ค. ํฌํธํ ํ์ง์์ ๊ณ ํด์๋ ๋๋ก ์ด๋ฏธ์ง๋ฅผ ์ฌ์ฉํ ๋ ํนํ ์ ๋ฆฌํฉ๋๋ค.
์ ํ๋์ ์๋ ๊ท ํ:
Swin Transformer๋ ๋์ ์ ํ๋์ ํจ์จ์ ์ธ ์๋ ์ฌ์ด์์ ๊ท ํ์ ์ก๊ณ ์์ด, ์ค์๊ฐ ์์คํ ์ด๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์๋ ์ ํฉํฉ๋๋ค.
์ด๋ฌํ ์ฅ์ ๋ค ๋๋ถ์ Swin Transformer๋ ์ต์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ์ค์์๋ ํนํ ์ด๋ฏธ์ง ๋ถ์ ์์ ์์ ๋งค์ฐ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
Swin Transformer์ ๋จ์
๋ณต์กํ ๊ตฌ์กฐ๋ก ์ธํ ๊ตฌํ ๋์ด๋:
Swin Transformer๋ ๊ธฐ์กด CNN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๊ตฌ์กฐ๊ฐ ๋ณต์กํฉ๋๋ค. Shifted Window ๋ฐ ๊ณ์ธต์ self-attention ๋ฉ์ปค๋์ฆ์ ์ค๊ณ์ ๊ตฌํ ๋ฉด์์ ๋ ๋ง์ ์ธ๋ถ์ ์ธ ์กฐ์ ์ด ํ์ํ๋ฉฐ, ์ด๋ฅผ ์ ๋๋ก ๊ตฌํํ๊ณ ์ต์ ํํ๋ ๊ฒ์ด ์ด๋ ค์ธ ์ ์์ต๋๋ค.
์ด๋ฌํ ๋ณต์ก์ฑ ๋๋ฌธ์ Swin Transformer๋ฅผ ์ฒ์ ๋ค๋ฃจ๋ ์ฐ๊ตฌ์๋ ๊ฐ๋ฐ์๋ CNN ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๋ง์ ํ์ต ์๊ฐ๊ณผ ๋ ธ๋ ฅ, ๊ทธ๋ฆฌ๊ณ ํ๋์จ์ด ์์์ด ํ์ํ ์ ์์ต๋๋ค.
ํ๋ จ ์๊ฐ ๋ฐ ์์ ์๊ตฌ๋ ์ฆ๊ฐ:
Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ CNN์ ๋นํด ๋ ๋ง์ ํ๋ จ ์์์ ์๊ตฌํฉ๋๋ค. ํนํ ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌํ ๋ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ๋์ด ๋งค์ฐ ๋์ ์ ์์ผ๋ฉฐ, ํ๋ จ ์๊ฐ์ด ์ฆ๊ฐํ ์ ์์ต๋๋ค.
Swin Transformer๋ ํจ์จ์ฑ์ ๊ฐ์ ํ์ง๋ง, ์ฌ์ ํ CNN์ ๋นํด ๋ชจ๋ธ ํฌ๊ธฐ์ ํ๋ จ ์๊ฐ ์ธก๋ฉด์์ ๋ฌด๊ฑฐ์ธ ์ ์์ต๋๋ค. ๊ณ ์ฑ๋ฅ GPU๊ฐ ํ์ํ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ฉฐ, ์ค์๊ฐ ์์ฉ์์๋ ์ถ๊ฐ์ ์ธ ์ต์ ํ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
๋ฐ์ดํฐ ์๊ตฌ๋:
Transformer ๊ณ์ด ๋ชจ๋ธ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ๋งค์ฐ ์ค์ํ ์ํฅ์ ๋ฏธ์นฉ๋๋ค. ์ถฉ๋ถํ ํฐ ํ์ต ๋ฐ์ดํฐ์ ์ด ์์ ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์ต๋๋ค. ์ด๋ ํนํ ๋๋ก ์์ ํ์ง์ ๊ฐ์ ํน์ ๋๋ฉ์ธ์์๋ ๋๊ท๋ชจ ๋ ์ด๋ธ๋ง๋ ๋ฐ์ดํฐ์ ์ ๊ตฌํ๊ธฐ ์ด๋ ค์ด ๋ฌธ์ ๋ก ์ด์ด์ง ์ ์์ต๋๋ค.
์๊ท๋ชจ ๋ฐ์ดํฐ์ ์์๋ ๊ณผ์ ํฉ(overfitting) ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊ฐ๋ฅ์ฑ์ด ๋์ผ๋ฉฐ, ์ด ๊ฒฝ์ฐ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์์ต๋๋ค.
์ค์๊ฐ ์์ฉ์์์ ์ ํ:
Swin Transformer๋ CNN์ ๋นํด ํจ์จ์ฑ์ด ๊ฐ์ ๋์์ง๋ง, ์ค์๊ฐ ์์ฉ์์ ์๊ตฌ๋๋ ์๋๋ฅผ ์ถฉ์กฑํ๋ ๋ฐ ํ๊ณ๊ฐ ์์ ์ ์์ต๋๋ค. ํนํ, ์ค์๊ฐ์ผ๋ก ๋๋ก์์ ํฌํธํ์ ํ์งํด์ผ ํ๋ ๊ฒฝ์ฐ ๋์ ์ฒ๋ฆฌ ์๋๊ฐ ํ์ํ๋ฏ๋ก, ์ถ๊ฐ์ ์ธ ๊ฒฝ๋ํ ์์ ์ด๋ ์ต์ ํ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
์๋์ฐ ๊ธฐ๋ฐ์ ํ๊ณ:
Swin Transformer์ Shifted Window ๋ฉ์ปค๋์ฆ์ ์๋์ฐ ๊ฐ์ ์ ๋ณด๋ฅผ ์ ๊ตํํ๋๋ก ์ค๊ณ๋์์ง๋ง, ์ฌ์ ํ ๊ฐ ์๋์ฐ ๋ด์์๋ง self-attention์ ๊ณ์ฐํ๋ค๋ ์ ํ์ด ์์ต๋๋ค. ์ด๋ ํฐ ๊ฐ์ฒด๋ ๋ณต์กํ ์ ์ญ์ ๊ด๊ณ๋ฅผ ํ์ ํด์ผ ํ ๋ CNN์ด๋ ๋ค๋ฅธ Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋นํด ๋ถ์กฑํ ์ ์์ต๋๋ค.
ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ๋ณต์ก์ฑ:
Swin Transformer๋ ๋ค์ํ ํ์ดํผํ๋ผ๋ฏธํฐ(์: ์๋์ฐ ํฌ๊ธฐ, ๊ณ์ธต์ ๊น์ด, ํค๋ ์ ๋ฑ)๋ฅผ ์ค์ ํด์ผ ํ๋๋ฐ, ์ด๋ค์ด ์์ ์ ๋ง๊ฒ ์ ๋๋ก ์ค์ ๋์ง ์์ผ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ์ ํ๋ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋์ ๋ง์ ์๊ฐ๊ณผ ๋ ธ๋ ฅ์ด ํ์ํ ์ ์์ต๋๋ค.
์ด๋ฌํ ๋จ์ ๋ค์๋ ๋ถ๊ตฌํ๊ณ Swin Transformer๋ ์ต์ ์ปดํจํฐ ๋น์ ์์ ์์ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๊ณ ์์ผ๋ฉฐ, ์ ์ ํ ์์๊ณผ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๋ค๋ฉด ๋งค์ฐ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ด ๋ ์ ์์ต๋๋ค.
ํฌํธํ ํ์ง์์์ Swin Transformer ํ์ฉ
ํฌํธํ ํ์ง๋ ์ด๋ฏธ์ง ๋ด์์ ์์ ์์์ ์ ํํ๊ฒ ํ์งํ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํฉ๋๋ค. Swin Transformer๋ ๋ค์๊ณผ ๊ฐ์ ์ด์ ๋ก ํฌํธํ ํ์ง์์ ์ ๋ฆฌํฉ๋๋ค:
์ ๋ฐํ ์์ญ ํ์ง: ์๋์ฐ ๊ธฐ๋ฐ self-attention์ ํตํด ์์ ํจ์น ๋ด์ ์์ธ ์ ๋ณด๋ฅผ ์บก์ฒํ ์ ์์ด ํฌํธํ๊ณผ ๊ฐ์ ์์ ๊ฐ์ฒด๋ฅผ ์ ํ์งํฉ๋๋ค.
์ ์ญ์ ๋ฌธ๋งฅ ๊ณ ๋ ค: Shifted Window๋ฅผ ํตํด ์ฃผ๋ณ ์ ๋ณด๋ฅผ ํจ๊ป ๊ณ ๋ คํ์ฌ ํฌํธํ์ ์ ํํ ์์น์ ํฌ๊ธฐ๋ฅผ ํ์งํ ์ ์์ต๋๋ค.
๊ณ ํจ์จ ์ฒ๋ฆฌ: ๊ณ์ฐ ํจ์จ์ด ๋ฐ์ด๋ ๊ณ ํด์๋ ๋๋ก ์ด๋ฏธ์ง์์๋ ๋น ๋ฅด๊ฒ ํฌํธํ์ ํ์งํ ์ ์์ต๋๋ค.
Swin Transformer๋ ์ต์ ๋น์ Transformer ๋ชจ๋ธ๋ก, ํฌํธํ ํ์ง์ ๊ฐ์ ๊ณ ์ ๋ฐ ์์ ์์ ๋งค์ฐ ์ ์ฉํ ์ ํ์ด ๋ ์ ์์ต๋๋ค.
๊ฐ์ฒด ํ์ง PyTorch ์์
Swin Transformer๋ฅผ ์ฌ์ฉํ ๊ฐ์ฒด ํ์ง ์์ ์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์ฝ๊ฒ ๊ตฌํํ ์ ์์ต๋๋ค. Swin Transformer๋ PyTorch ๊ธฐ๋ฐ์ timm(PyTorch Image Models) ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ฝ๊ฒ ๋ถ๋ฌ์ฌ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ๊ฐ์ฒด ํ์ง ์์ ์ ํ์ฉํ ์ ์์ต๋๋ค.
์๋๋ PyTorch์ timm์ ์ฌ์ฉํ์ฌ Swin Transformer๋ฅผ ๋ถ๋ฌ์ค๊ณ , ๊ฐ์ฒด ํ์ง ์์ ์ ์ํ ๊ธฐ๋ณธ์ ์ธ ์์ ๋ฅผ ๋ณด์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค.
Swin Transformer๋ฅผ ์ฌ์ฉํ ๊ฐ์ฒด ํ์ง ์์ ์ฝ๋
timm ๋ผ์ด๋ธ๋ฌ๋ฆฌ:
timm์ ๋ค์ํ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ์ ๊ณตํ๋ PyTorch ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋๋ค. Swin Transformer๋ฅผ ํฌํจํ์ฌ ๋ง์ ์ต์ ๋ชจ๋ธ๋ค์ด ํฌํจ๋์ด ์์ต๋๋ค.์ ์ฝ๋์์
timm.create_model์ ํตํดswin_base_patch4_window7_224๋ชจ๋ธ์ ๋ถ๋ฌ์ต๋๋ค. ์ด๋ 224x224 ํฌ๊ธฐ์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋๋ก ์ค๊ณ๋ Swin Transformer ๋ชจ๋ธ์ ๋๋ค.
์ด๋ฏธ์ง ์ ์ฒ๋ฆฌ:
torchvision.transforms๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ธ์ ์ ๋ ฅํ๊ธฐ ์ ํ์ํ ์ ์ฒ๋ฆฌ๋ฅผ ์ํํฉ๋๋ค. ๋ชจ๋ธ์ด ๊ธฐ๋ํ๋ ์ ๋ ฅ ํฌ๊ธฐ์ ์ ๊ทํ๋ฅผ ์ํํฉ๋๋ค.
์์ธก ์ํ:
Swin Transformer ๋ชจ๋ธ์ ํตํด ์์ธก์ ์ํํ๋ฉฐ,
torch.no_grad()๋ธ๋ก ์์์ ์์ธก์ ์งํํ์ฌ ๊ทธ๋๋์ธํธ ๊ณ์ฐ์ ๋ง๊ณ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ๋์ ๋๋ค.
์ถ๋ ฅ:
๋ชจ๋ธ์ ์์ธก ๊ฒฐ๊ณผ๋ ์ด๋ฏธ์ง์ ๋ํ ๊ฐ ํด๋์ค์ ์์ธก๊ฐ์ด ๋ฉ๋๋ค. Swin Transformer๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ด๋ฏธ์ง ๋ถ๋ฅ ๋ชจ๋ธ๋ก ๋์ํ๊ธฐ ๋๋ฌธ์, ๊ฐ์ฒด ํ์ง ์์ ์ ์ํด์๋ ์ถ๊ฐ์ ์ธ ํ์ฒ๋ฆฌ๊ฐ ํ์ํฉ๋๋ค.
๊ฐ์ฒด ํ์ง ์์
ํ์ฅ
์ ์์ ๋ ์ด๋ฏธ์ง ๋ถ๋ฅ ์์ ์ Swin Transformer๋ฅผ ์ฌ์ฉํ๋ ๊ธฐ๋ณธ ์์ ์ ๋๋ค. ๊ฐ์ฒด ํ์ง ์์ ์ ์ํด Swin Transformer๋ฅผ ํ์ฉํ๋ ค๋ฉด Detectron2์ ๊ฐ์ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค. Detectron2๋ Mask R-CNN, Faster R-CNN ๋ฑ์ ์ต์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ง์ํ๋ฉฐ, Swin Transformer์ ๊ฒฐํฉํ์ฌ ๋์ฑ ๊ฐ๋ ฅํ ๊ฐ์ฒด ํ์ง ์์คํ ์ ๊ตฌ์ถํ ์ ์์ต๋๋ค.
Detectron2์ Swin Transformer๋ฅผ ๊ฒฐํฉํ ์์ ๋ ๋ค์๊ณผ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ํ์ฅ ๊ฐ๋ฅํฉ๋๋ค:
Detectron2 ์ค์น:
Detectron2์ Swin Transformer ๊ฒฐํฉ ์ฝ๋: Detectron2์์ Swin Transformer backbone์ ์ฌ์ฉํ์ฌ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ๋ฐฉ๋ฒ๋ ์์ต๋๋ค. Detectron2์ ๊ธฐ๋ณธ Mask R-CNN์ด๋ Faster R-CNN์ backbone์ Swin Transformer๋ก ๋ณ๊ฒฝํ๋ ๋ฐฉ์์ ๋๋ค.
์ด๋ฌํ ๋ฐฉ์์ ํตํด ๊ฐ์ฒด ํ์ง ์์ ์ Swin Transformer๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํ ์ ์์ต๋๋ค.
CNN ๋ฐฑ๋ณธ(Backbone)์ ๋์ฒด
Swin Transformer๋ฅผ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ CNN ๋ฐฑ๋ณธ(Backbone) ๋ถ๋ถ์ ๋์ฒดํ๋ ๋ฐฉ์์ผ๋ก ์ฌ์ฉํฉ๋๋ค. ๋ฐฑ๋ณธ์ ์ ๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ ํน์ง์ ์ถ์ถํ๋ ์ญํ ์ ํ๋ ๋คํธ์ํฌ๋ก, ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ค์ํ ๊ตฌ์ฑ ์์์ ๋๋ค.
๊ธฐ์กด ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ธ Faster R-CNN์ด๋ Mask R-CNN ๋ฑ์ ์ผ๋ฐ์ ์ผ๋ก ResNet ๋๋ VGG์ ๊ฐ์ CNN ๊ธฐ๋ฐ์ ๋ฐฑ๋ณธ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์์ ํน์ง์ ์ถ์ถํฉ๋๋ค. ๊ทธ๋ฌ๋ ์ต๊ทผ Transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ๋ค์ด ๋ฑ์ฅํ๋ฉด์, CNN ๋์ Swin Transformer์ ๊ฐ์ Transformer ๊ธฐ๋ฐ ๋ฐฑ๋ณธ์ ์ฌ์ฉํด ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์์ต๋๋ค.
CNN๊ณผ Swin Transformer์ ์ฐจ์ด์
CNN ๋ฐฑ๋ณธ:
CNN์ ํฉ์ฑ๊ณฑ ๊ณ์ธต์ ํตํด ์ง์ญ์ ์ธ ํน์ง์ ์ถ์ถํฉ๋๋ค. ์ด๋ ์ด๋ฏธ์ง ๋ด์ ์์ ํจ์น๋ค์ ์ฒ๋ฆฌํ์ฌ ๊ตญ์์ ์ธ ์ ๋ณด๋ฅผ ์ ์บก์ฒํ์ง๋ง, ์ ์ญ์ ์ธ ์ ๋ณด๋ ๋ฉ๋ฆฌ ๋จ์ด์ง ํฝ์ ๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ํ๊ณ๊ฐ ์์ต๋๋ค.
Swin Transformer ๋ฐฑ๋ณธ:
Swin Transformer๋ self-attention ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง์ ์ ์ญ์ ์ด๊ณ ๋ณตํฉ์ ์ธ ๊ด๊ณ๋ฅผ ํ์ตํฉ๋๋ค. ํนํ Swin Transformer๋ Shifted Window ๋ฐฉ์์ ๋์ ํ์ฌ ํจ์จ์ ์ผ๋ก ์ง์ญ์ ์ธ ์ ๋ณด์ ์ ์ญ์ ์ธ ์ ๋ณด๋ฅผ ๋์์ ์ฒ๋ฆฌํ ์ ์๋๋ก ์ค๊ณ๋์์ต๋๋ค.
์ด ๋ฐฉ์์ CNN์ ๋นํด ๋ ๊ฐ๋ ฅํ ํน์ง ํํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ์์ ๊ฐ์ฒด๋ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ๋ ์ ํ์ตํ ์ ์์ด, ํฌํธํ ํ์ง์ ๊ฐ์ ์์ ์ ์ ๋ฆฌํ ์ ์์ต๋๋ค.
Swin Transformer ๋ฐฑ๋ณธ ์ฌ์ฉ ๋ฐฉ๋ฒ
๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์์ ๋ฐฑ๋ณธ ๊ต์ฒด:
๊ธฐ์กด์ ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ธ Faster R-CNN์ด๋ Mask R-CNN์์ ResNet๊ณผ ๊ฐ์ CNN ๋ฐฑ๋ณธ์ ์ ๊ฑฐํ๊ณ , ๊ทธ ์๋ฆฌ์ Swin Transformer๋ฅผ ๋ฐฐ์นํ ์ ์์ต๋๋ค.
Detectron2์ ๊ฐ์ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฐฑ๋ณธ ๊ต์ฒด๊ฐ ๋งค์ฐ ๊ฐ๋จํฉ๋๋ค.
Swin Transformer ๋ฐฑ๋ณธ ์์ (Detectron2 ๊ธฐ๋ฐ): Detectron2์ Swin Transformer๋ฅผ ๊ฒฐํฉํ๋ ๊ณผ์ ์์ Swin Transformer๋ฅผ ๋ฐฑ๋ณธ์ผ๋ก ์ค์ ํ๋ ์์์ ๋๋ค.
Swin Transformer ๋ฐฑ๋ณธ์ ์ด์ :
๋ ๋ณต์กํ ๊ด๊ณ ํ์ต: Swin Transformer๋ ์ด๋ฏธ์ง์ ๋ ๋ณต์กํ ๊ตฌ์กฐ๋ฅผ ํ์ตํ ์ ์๊ธฐ ๋๋ฌธ์, ๋๋ก์์ ๋ฐ์ํ๋ ๋ค์ํ ํฌ๊ธฐ์ ํํ์ ํฌํธํ์ ํ์งํ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค.
์ ์ญ์ ๋ฌธ๋งฅ ์ ๋ณด: CNN๊ณผ ๋ฌ๋ฆฌ self-attention ๋ฉ์ปค๋์ฆ์ ์ ์ญ์ ์ธ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ํ์ตํ๋ ๋ฐ ๊ฐ์ ์ด ์์ด, ํฌํธํ ์ฃผ๋ณ์ ํ๊ฒฝ๊น์ง ๊ณ ๋ คํ ํ์ง๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
ํ์ฅ์ฑ: Swin Transformer๋ ๋ค์ํ ๋น์ ์์ ์ ์ ์ฉ๋ ์ ์์ผ๋ฉฐ, ๊ฐ์ฒด ํ์ง๋ฟ๋ง ์๋๋ผ ์ธ๊ทธ๋ฉํ ์ด์ ์ด๋ ์ด๋ฏธ์ง ๋ถ๋ฅ ์์ ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
Swin Transformer๋ฅผ CNN ๋ฐฑ๋ณธ ๋์ ์ฌ์ฉํ๋ ๊ฒ์ ๊ธฐ์กด ๊ฐ์ฒด ํ์ง ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์๋ ๊ฐ๋ ฅํ ๋ฐฉ๋ฒ์ ๋๋ค. Detectron2์ ๊ฐ์ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๋ฉด Swin Transformer๋ฅผ ์ฝ๊ฒ ํตํฉํ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ํตํด ํฌํธํ ํ์ง์ ๊ฐ์ ์์ ์์ ๋ ๋์ ์ ํ๋์ ์ฑ๋ฅ์ ๊ธฐ๋ํ ์ ์์ต๋๋ค.
์๊ตฌ ์์
Swin Transformer๋ ๊ธฐ์กด CNN ๋ฐฑ๋ณธ์ ๋นํด ๋ ๋ง์ ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ์์์ด ํ์ํ ์ ์์ต๋๋ค. ์ด๋ ํนํ self-attention ๋ฉ์ปค๋์ฆ์ด ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ๋ ๋ง์ ๊ณ์ฐ์ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ ๋๋ค. Swin Transformer์ ๋ฉ๋ชจ๋ฆฌ ๋ฐ ๊ณ์ฐ ์์ ์๊ตฌ ์ฌํญ์ ์ฌ์ฉํ๋ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ์ด๋ฏธ์ง์ ํด์๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋๋ค.
Swin Transformer ๋ชจ๋ธ์ ํฌ๊ธฐ ๋ฐ ์์ ์๊ตฌ
Swin Transformer๋ Tiny, Small, Base, Large ๋ฑ ์ฌ๋ฌ ๋ฒ์ ์ด ์์ผ๋ฉฐ, ๊ฐ ๋ฒ์ ์ ๋ค๋ฅธ ์์ ์๊ตฌ ์ฌํญ์ ๊ฐ์ง๋๋ค. ์๋๋ Swin Transformer์ ๊ฐ ๋ชจ๋ธ์ ๋ํ ๋ฉ๋ชจ๋ฆฌ ๋ฐ ๊ณ์ฐ ์์ ์๊ตฌ ์ฌํญ์ ๋๋ต์ ์ธ ๋น๊ต์ ๋๋ค.
Swin-Tiny (Swin-T)
224x224
28M
4.5 GFLOPs
์ฝ 4~6 GB
Swin-Small (Swin-S)
224x224
50M
8.7 GFLOPs
์ฝ 8~10 GB
Swin-Base (Swin-B)
224x224
88M
15.4 GFLOPs
์ฝ 10~12 GB
Swin-Large (Swin-L)
224x224
197M
34.5 GFLOPs
์ฝ 16~20 GB
์์ ์๊ตฌ์ ์ํฅ์ ๋ฏธ์น๋ ์์
๋ชจ๋ธ ํฌ๊ธฐ:
Swin Transformer๋ ์ฌ๋ฌ ํฌ๊ธฐ ๋ฒ์ ์ด ์์ต๋๋ค. Swin-Tiny์ Swin-Small์ ์๋์ ์ผ๋ก ๊ฐ๋ฒผ์ด ๋ฒ์ ์ผ๋ก, ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ์์์ด ๋น๊ต์ ์ ๊ฒ ํ์ํฉ๋๋ค.
๋ฐ๋ฉด, Swin-Base๋ Swin-Large๋ ๋ ๋ง์ ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ์์์ ํ์๋ก ํ์ง๋ง, ๋ ๋์ ์ฑ๋ฅ์ ์ ๊ณตํ ์ ์์ต๋๋ค.
์ ๋ ฅ ์ด๋ฏธ์ง์ ํด์๋:
์ ๋ ฅ ์ด๋ฏธ์ง์ ํด์๋๊ฐ ๋์์๋ก self-attention ๋ฉ์ปค๋์ฆ์ด ์ฒ๋ฆฌํด์ผ ํ๋ ํจ์น ์๊ฐ ๋ง์์ ธ ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ์์ ์๊ตฌ๋์ด ๊ธ๊ฒฉํ ์ฆ๊ฐํฉ๋๋ค. ์๋ฅผ ๋ค์ด, 224x224 ํด์๋๋ณด๋ค ๋ ํฐ ํด์๋์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ ๊ฒฝ์ฐ, VRAM ์ฌ์ฉ๋์ด ํฌ๊ฒ ์ฆ๊ฐํฉ๋๋ค.
Swin Transformer์ ๊ฒฝ์ฐ ์๋์ฐ ๊ธฐ๋ฐ์ attention์ ์ฌ์ฉํ๋ฏ๋ก, ํด์๋๊ฐ ํด์๋ก ์๋์ฐ์ ๊ฐ์๊ฐ ์ฆ๊ฐํด ์ฐ์ฐ๋์ด ์ปค์ง๊ฒ ๋ฉ๋๋ค.
Batch Size:
๋ฐฐ์น ํฌ๊ธฐ๊ฐ ํด์๋ก ๋ ๋ง์ ์ด๋ฏธ์ง๊ฐ ํ ๋ฒ์ ์ฒ๋ฆฌ๋๋ฏ๋ก, ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ๋์ด ์ฆ๊ฐํฉ๋๋ค. ๋ํ ๋ฐฐ์น ํฌ๊ธฐ๋ก ํ์ตํ๋ ค๋ฉด GPU VRAM ์ฉ๋์ด ์ถฉ๋ถํด์ผ ํฉ๋๋ค.
GPU ๋ฐ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ:
Swin Transformer๋ ์ฐ์ฐ๋์ด ๋ง์ ๊ณ ์ฑ๋ฅ GPU๊ฐ ํ์ํฉ๋๋ค. ์๋ฅผ ๋ค์ด, NVIDIA RTX 3090๊ณผ ๊ฐ์ ๊ณ ์ฉ๋ VRAM์ ๊ฐ์ง GPU๊ฐ Swin-Base ์ด์์ ๋ชจ๋ธ์ ์ฌ์ฉํ ๋ ์ ํฉํฉ๋๋ค.
ํ์ต์ ํ์ํ VRAM ์๊ตฌ๋์ ๋ฐ์ดํฐ์ ํด์๋, ๋ฐฐ์น ํฌ๊ธฐ, ๋ชจ๋ธ ํฌ๊ธฐ์ ๋ฐ๋ผ ๊ฒฐ์ ๋๋ฉฐ, ๋๋ต์ ์ผ๋ก 8GB ์ด์์ GPU ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํ๋ฉฐ, ๋ ํฐ ๋ชจ๋ธ์ด๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง์ ๊ฒฝ์ฐ 16GB ์ด์์ VRAM์ด ํ์ํ ์ ์์ต๋๋ค.
์ถ๋ก ์ ๋ฉ๋ชจ๋ฆฌ ์๊ตฌ ์ฌํญ:
ํ์ต ๋จ๊ณ์์๋ ๋ง์ ์ฐ์ฐ ์์์ด ํ์ํ์ง๋ง, ์ถ๋ก ๋จ๊ณ์์๋ ์๋์ ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ์ ์ต๋๋ค. ๊ทธ๋ฌ๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ ๊ฒฝ์ฐ ์ถ๋ก ์์๋ ์ถฉ๋ถํ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํ ์ ์์ต๋๋ค.
์์: Swin-Base๋ฅผ ์ด์ฉํ ๊ฐ์ฒด ํ์ง
FLOPs: ์ฝ 15.4 GFLOPs
VRAM: ์ฝ 10~12 GB (224x224 ํด์๋ ์ด๋ฏธ์ง ์ ๋ ฅ ์)
ํ์ต ์๊ฐ: ๊ณ ํด์๋ ์ด๋ฏธ์ง ๋ฐ ๋ํ ๋ฐฐ์น ํฌ๊ธฐ์ ๊ฒฝ์ฐ NVIDIA RTX 3090 ๋๋ A100๊ณผ ๊ฐ์ GPU๊ฐ ๊ถ์ฅ๋ฉ๋๋ค.
์์ ์ต์ ํ ๋ฐฉ๋ฒ
Mixed Precision Training:
FP16(Half-precision)์ ์ฌ์ฉํ๋ ํผํฉ ์ ๋ฐ๋ ํ์ต์ ๋์ ํ๋ฉด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ณ , ์ฐ์ฐ ์๋๋ฅผ ํฅ์์ํฌ ์ ์์ต๋๋ค. PyTorch์์๋ Apex์ ๊ฐ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ์ฌ ์ฝ๊ฒ mixed precision์ ๊ตฌํํ ์ ์์ต๋๋ค.
Gradient Checkpointing:
๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ธฐ ์ํด gradient checkpointing ๊ธฐ๋ฒ์ ๋์ ํ ์ ์์ต๋๋ค. ์ด๋ ์ผ๋ถ ์ค๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ค์ ๊ณ์ฐํจ์ผ๋ก์จ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๋ ๋ฐฉ๋ฒ์ ๋๋ค.
์๋์ฐ ํฌ๊ธฐ ์ต์ ํ:
Swin Transformer๋ ์๋์ฐ ๊ธฐ๋ฐ attention์ ์ฌ์ฉํ๋ฏ๋ก, ์๋์ฐ ํฌ๊ธฐ๋ฅผ ์กฐ์ ํ์ฌ ๋ฉ๋ชจ๋ฆฌ์ ์ฑ๋ฅ์ ๊ท ํ์ ๋ง์ถ ์ ์์ต๋๋ค.
Swin Transformer๋ ๊ธฐ์กด CNN ๋ฐฑ๋ณธ๋ณด๋ค ๋ ๋์ ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ ์์์ ์๊ตฌํ์ง๋ง, self-attention์ ์ด์ ์ ํตํด ๋ ์ ํํ๊ณ ์ธ๋ฐํ ํน์ง์ ํ์ตํ ์ ์์ต๋๋ค. ๋ชจ๋ธ์ ํฌ๊ธฐ, ์ด๋ฏธ์ง ํด์๋, ๋ฐฐ์น ํฌ๊ธฐ ๋ฑ์ ๊ณ ๋ คํ์ฌ ์์์ ์ต์ ํํ๋ ๊ฒ์ด ์ค์ํ๋ฉฐ, ๊ณ ์ฑ๋ฅ GPU๊ฐ ํ์ํ ๊ฒฝ์ฐ๋ ๋ง์ต๋๋ค.
Last updated