Spaces:
Paused
A newer version of the Gradio SDK is available:
5.23.3
Transformer ๋ชจ๋ธ๊ตฐ[[the-transformer-model-family]]
2017๋ ์ ์๊ฐ๋ ๊ธฐ๋ณธ Transformer ๋ชจ๋ธ์ ์์ฐ์ด ์ฒ๋ฆฌ(NLP) ์์ ์ ๋์ด ์๋กญ๊ณ ํฅ๋ฏธ๋ก์ด ๋ชจ๋ธ๋ค์ ์๊ฐ์ ์ฃผ์์ต๋๋ค. ๋จ๋ฐฑ์ง ์ ํ ๊ตฌ์กฐ ์์ธก, ์นํ์ ๋ฌ๋ฆฌ๊ธฐ ํ๋ จ, ์๊ณ์ด ์์ธก ๋ฑ์ ์ํ ๋ค์ํ ๋ชจ๋ธ์ด ์๊ฒจ๋ฌ์ต๋๋ค. Transformer์ ๋ณํ์ด ๋๋ฌด ๋ง์์, ํฐ ๊ทธ๋ฆผ์ ๋์น๊ธฐ ์ฝ์ต๋๋ค. ํ์ง๋ง ์ฌ๊ธฐ ์๋ ๋ชจ๋ ๋ชจ๋ธ์ ๊ณตํต์ ์ ๊ธฐ๋ณธ Trasnformer ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค๋ ์ ์ ๋๋ค. ์ผ๋ถ ๋ชจ๋ธ์ ์ธ์ฝ๋ ๋๋ ๋์ฝ๋๋ง ์ฌ์ฉํ๊ณ , ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ์ธ์ฝ๋์ ๋์ฝ๋๋ฅผ ๋ชจ๋ ์ฌ์ฉํ๊ธฐ๋ ํฉ๋๋ค. ์ด๋ ๊ฒ Transformer ๋ชจ๋ธ๊ตฐ ๋ด ์์ ๋ ๋ฒจ์์์ ์ฐจ์ด์ ์ ๋ถ๋ฅํ๊ณ ๊ฒํ ํ๋ฉด ์ ์ฉํ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ป์ ์ ์์ผ๋ฉฐ, ์ด์ ์ ์ ํด๋ณด์ง ๋ชปํ Transformer ๋ชจ๋ธ๋ค ๋ํ ์ดํดํ๋ ๋ฐ ๋์์ด ๋ ๊ฒ์ ๋๋ค.
๊ธฐ๋ณธ Transformer ๋ชจ๋ธ์ ์ต์ํ์ง ์๊ฑฐ๋ ๋ณต์ต์ด ํ์ํ ๊ฒฝ์ฐ, Hugging Face ๊ฐ์์ ํธ๋์คํฌ๋จธ๋ ์ด๋ป๊ฒ ๋์ํ๋์? ์ฑํฐ๋ฅผ ํ์ธํ์ธ์.
์ปดํจํฐ ๋น์ [[computer-vision]]
ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ[[convolutional-network]]
Vision Transformer๊ฐ ํ์ฅ์ฑ๊ณผ ํจ์จ์ฑ์ ์ ์ฆํ๊ธฐ ์ ๊น์ง ์ค๋ซ๋์ ํฉ์ฑ๊ณฑ ๋คํธ์ํฌ(CNN)๊ฐ ์ปดํจํฐ ๋น์ ์์ ์ ์ง๋ฐฐ์ ์ธ ํจ๋ฌ๋ค์์ด์์ต๋๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์ด๋ ๋ถ๋ณ์ฑ(translation invariance)๊ณผ ๊ฐ์ CNN์ ์ฐ์ํ ๋ถ๋ถ์ด ๋๋๋ผ์ง๊ธฐ ๋๋ฌธ์ ๋ช๋ช (ํนํ ํน์ ๊ณผ์ ์์์) Transformer ๋ชจ๋ธ์ ์ํคํ ์ฒ์ ํฉ์ฑ๊ณฑ์ ํตํฉํ๊ธฐ๋ ํ์ต๋๋ค. ConvNeXt๋ ์ด๋ฐ ๊ด๋ก๋ฅผ ๋ค์ง์ด CNN์ ํ๋ํํ๊ธฐ ์ํด Transformer์ ๋์์ธ์ ์ฐจ์ฉํฉ๋๋ค. ์๋ฅผ ๋ค๋ฉด ConvNeXt๋ ๊ฒน์น์ง ์๋ ์ฌ๋ผ์ด๋ฉ ์ฐฝ(sliding window)์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ํจ์นํํ๊ณ , ๋ ํฐ ์ปค๋๋ก ์ ์ญ ์์ฉ ํ๋(global receptive field)๋ฅผ ํ์ฅ์ํต๋๋ค. ConvNeXt๋ ๋ํ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ ๋์ด๊ณ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด ์ฌ๋ฌ ๋ ์ด์ด ์ค๊ณ๋ฅผ ์ ํํ๊ธฐ ๋๋ฌธ์ Transformer์ ๊ฒฌ์ค๋งํฉ๋๋ค!
์ธ์ฝ๋[[cv-encoder]]
Vision Transformer(ViT)๋ ํฉ์ฑ๊ณฑ ์๋ ์ปดํจํฐ ๋น์ ์์ ์ ๋ง์ ์ด์์ต๋๋ค. ViT๋ ํ์ค Transformer ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ง๋ง, ๊ฐ์ฅ ํฐ ํ์ ์ ์ด๋ฏธ์ง๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ด์์ต๋๋ค. ๋ฌธ์ฅ์ ํ ํฐ์ผ๋ก ๋ถํ ํ๋ ๊ฒ์ฒ๋ผ ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ์ ํจ์น๋ก ๋ถํ ํ๊ณ , ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์๋ฒ ๋ฉ์ ์์ฑํฉ๋๋ค. ViT๋ Transformer์ ํจ์จ์ ์ธ ์ํคํ ์ฒ๋ฅผ ํ์ฉํ์ฌ ํ๋ จ์ ๋ ์ ์ ์์์ ์ฌ์ฉํ๋ฉด์๋ ๋น์ CNN์ ๋น๊ฒฌํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ ์ฆํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ViT๋ฅผ ๋ค์ด์ด ๋ถํ (segmentation)๊ณผ ๊ฐ์ ๊ณ ๋ฐ๋ ๋น์ ์์ ๊ณผ ํ์ง ์์ ๋ ๋ค๋ฃฐ ์ ์๋ ๋ค๋ฅธ ๋น์ ๋ชจ๋ธ์ด ๋ฑ์ฅํ์ต๋๋ค.
์ด๋ฌํ ๋ชจ๋ธ ์ค ํ๋๊ฐ Swin Transformer์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์์ ํฌ๊ธฐ์ ํจ์น์์ ๊ณ์ธต์ ํน์ง ๋งต(CNN ๐๊ณผ ๊ฐ์ง๋ง ViT์๋ ๋ค๋ฆ)์ ๋ง๋ค๊ณ ๋ ๊น์ ๋ ์ด์ด์ ์ธ์ ํจ์น์ ๋ณํฉํฉ๋๋ค. ์ดํ ์ (Attention)์ ์ง์ญ ์๋์ฐ ๋ด์์๋ง ๊ณ์ฐ๋๋ฉฐ, ๋ชจ๋ธ์ด ๋ ์ ํ์ตํ ์ ์๋๋ก ์ดํ ์ ๋ ์ด์ด ๊ฐ์ ์๋์ฐ๋ฅผ ์ด๋ํ๋ฉฐ ์ฐ๊ฒฐ์ ์์ฑํฉ๋๋ค. Swin Transformer๋ ๊ณ์ธต์ ํน์ง ๋งต์ ์์ฑํ ์ ์์ผ๋ฏ๋ก, ๋ถํ (segmentation)๊ณผ ํ์ง์ ๊ฐ์ ๊ณ ๋ฐ๋ ์์ธก ์์ ์ ์ ํฉํฉ๋๋ค. SegFormer ์ญ์ Transformer ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ๊ณ์ธต์ ํน์ง ๋งต์ ๊ตฌ์ถํ์ง๋ง, ์๋จ์ ๊ฐ๋จํ ๋ค์ธต ํผ์ ํธ๋ก (MLP) ๋์ฝ๋๋ฅผ ์ถ๊ฐํ์ฌ ๋ชจ๋ ํน์ง ๋งต์ ๊ฒฐํฉํ๊ณ ์์ธก์ ์ํํฉ๋๋ค.
BeIT์ ViTMAE์ ๊ฐ์ ๋ค๋ฅธ ๋น์ ๋ชจ๋ธ์ BERT์ ์ฌ์ ํ๋ จ ๋ชฉํ(objective)์์ ์๊ฐ์ ์ป์์ต๋๋ค. BeIT๋ *๋ง์คํฌ๋ ์ด๋ฏธ์ง ๋ชจ๋ธ๋ง(MIM)*์ผ๋ก ์ฌ์ ํ๋ จ๋๋ฉฐ, ์ด๋ฏธ์ง ํจ์น๋ ์์๋ก ๋ง์คํน๋๊ณ ์ด๋ฏธ์ง๋ ์๊ฐ์ ํ ํฐ์ผ๋ก ํ ํฐํ๋ฉ๋๋ค. BeIT๋ ๋ง์คํน๋ ํจ์น์ ํด๋นํ๋ ์๊ฐ์ ํ ํฐ์ ์์ธกํ๋๋ก ํ์ต๋ฉ๋๋ค. ViTMAE๋ ๋น์ทํ ์ฌ์ ํ๋ จ ๋ชฉํ๊ฐ ์์ง๋ง, ์๊ฐ์ ํ ํฐ ๋์ ํฝ์ ์ ์์ธกํด์ผ ํ๋ค๋ ์ ์ด ๋ค๋ฆ ๋๋ค. ํน์ดํ ์ ์ ์ด๋ฏธ์ง ํจ์น์ 75%๊ฐ ๋ง์คํน๋์ด ์๋ค๋ ๊ฒ์ ๋๋ค! ๋์ฝ๋๋ ๋ง์คํน๋ ํ ํฐ๊ณผ ์ธ์ฝ๋ฉ๋ ํจ์น์์ ํฝ์ ์ ์ฌ๊ตฌ์ฑํฉ๋๋ค. ์ฌ์ ํ๋ จ์ด ๋๋๋ฉด ๋์ฝ๋๋ ํ๊ธฐ๋๊ณ ์ธ์ฝ๋๋ ๋ค์ด์คํธ๋ฆผ ์์ ์ ์ฌ์ฉํ ์ค๋น๊ฐ ๋ฉ๋๋ค.
๋์ฝ๋[[cv-decoder]]
๋๋ถ๋ถ์ ๋น์ ๋ชจ๋ธ์ ์ธ์ฝ๋์ ์์กดํ์ฌ ์ด๋ฏธ์ง ํํ์ ํ์ตํ๊ธฐ ๋๋ฌธ์ ๋์ฝ๋ ์ ์ฉ ๋น์ ๋ชจ๋ธ์ ๋๋ญ ๋๋ค. ํ์ง๋ง ์ด๋ฏธ์ง ์์ฑ ๋ฑ์ ์ฌ๋ก์ ๊ฒฝ์ฐ, GPT-2์ ๊ฐ์ ํ ์คํธ ์์ฑ ๋ชจ๋ธ์์ ๋ณด์๋ฏ์ด ๋์ฝ๋๊ฐ ๊ฐ์ฅ ์ ํฉํฉ๋๋ค. ImageGPT๋ GPT-2์ ๋์ผํ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ์ง๋ง, ์ํ์ค์ ๋ค์ ํ ํฐ์ ์์ธกํ๋ ๋์ ์ด๋ฏธ์ง์ ๋ค์ ํฝ์ ์ ์์ธกํฉ๋๋ค. ImageGPT๋ ์ด๋ฏธ์ง ์์ฑ ๋ฟ๋ง ์๋๋ผ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํด ๋ฏธ์ธ ์กฐ์ ํ ์๋ ์์ต๋๋ค.
์ธ์ฝ๋-๋์ฝ๋[[cv-encoder-decoder]]
๋น์ ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ผ๋ก ์ธ์ฝ๋(๋ฐฑ๋ณธ์ผ๋ก๋ ์๋ ค์ง)๋ฅผ ์ฌ์ฉํ์ฌ ์ค์ํ ์ด๋ฏธ์ง ํน์ง์ ์ถ์ถํ ํ, ์ด๋ฅผ Transformer ๋์ฝ๋๋ก ์ ๋ฌํฉ๋๋ค. DETR์ ์ฌ์ ํ๋ จ๋ ๋ฐฑ๋ณธ์ด ์์ง๋ง, ๊ฐ์ฒด ํ์ง๋ฅผ ์ํด ์์ ํ Transformer ์ธ์ฝ๋-๋์ฝ๋ ์ํคํ ์ฒ๋ ์ฌ์ฉํฉ๋๋ค. ์ธ์ฝ๋๋ ์ด๋ฏธ์ง ํํ์ ํ์ตํ๊ณ ์ด๋ฅผ ๋์ฝ๋์์ ๊ฐ์ฒด ์ฟผ๋ฆฌ(๊ฐ ๊ฐ์ฒด ์ฟผ๋ฆฌ๋ ์ด๋ฏธ์ง์ ์์ญ ๋๋ ๊ฐ์ฒด์ ์ค์ ์ ๋๊ณ ํ์ต๋ ์๋ฒ ๋ฉ)์ ๊ฒฐํฉํฉ๋๋ค. DETR์ ๊ฐ ๊ฐ์ฒด ์ฟผ๋ฆฌ์ ๋ํ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ์ ํด๋์ค ๋ ์ด๋ธ์ ์์ธกํฉ๋๋ค.
์์ฐ์ด์ฒ๋ฆฌ[[natural-language-processing]]
์ธ์ฝ๋[[nlp-encoder]]
BERT๋ ์ธ์ฝ๋ ์ ์ฉ Transformer๋ก, ๋ค๋ฅธ ํ ํฐ์ ๋ณด๊ณ ์์ "๋ถ์ ํ์"๋ฅผ ์ ์ง๋ฅด๋ ๊ฑธ ๋ง๊ธฐ ์ํด ์ ๋ ฅ์์ ํน์ ํ ํฐ์ ์์๋ก ๋ง์คํนํฉ๋๋ค. ์ฌ์ ํ๋ จ์ ๋ชฉํ๋ ์ปจํ ์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ง์คํน๋ ํ ํฐ์ ์์ธกํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ ํตํด BERT๋ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ ์ปจํ ์คํธ๋ฅผ ์ถฉ๋ถํ ํ์ฉํ์ฌ ์ ๋ ฅ์ ๋ํด ๋ ๊น๊ณ ํ๋ถํ ํํ์ ํ์ตํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋ BERT์ ์ฌ์ ํ๋ จ ์ ๋ต์๋ ์ฌ์ ํ ๊ฐ์ ์ ์ฌ์ง๊ฐ ๋จ์ ์์์ต๋๋ค. RoBERTa๋ ๋ ๊ธด ์๊ฐ ๋์ ๋ ํฐ ๋ฐฐ์น์ ๋ํ ํ๋ จ์ ํฌํจํ๊ณ , ์ ์ฒ๋ฆฌ ์ค์ ํ ๋ฒ๋ง ๋ง์คํนํ๋ ๊ฒ์ด ์๋๋ผ ๊ฐ ์ํญ์์ ํ ํฐ์ ์์๋ก ๋ง์คํนํ๊ณ , ๋ค์ ๋ฌธ์ฅ ์์ธก ๋ชฉํ๋ฅผ ์ ๊ฑฐํ๋ ์๋ก์ด ์ฌ์ ํ๋ จ ๋ฐฉ์์ ๋์ ํจ์ผ๋ก์จ ์ด๋ฅผ ๊ฐ์ ํ์ต๋๋ค.
์ฑ๋ฅ ๊ฐ์ ์ ์ํ ์ ๋ต์ผ๋ก ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ์ด ์ง๋ฐฐ์ ์ ๋๋ค. ํ์ง๋ง ํฐ ๋ชจ๋ธ์ ํ๋ จํ๋ ค๋ฉด ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค. ๊ณ์ฐ ๋น์ฉ์ ์ค์ด๋ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ DistilBERT์ ๊ฐ์ด ์์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ ๋๋ค. DistilBERT๋ ์์ถ ๊ธฐ๋ฒ์ธ ์ง์ ์ฆ๋ฅ(knowledge distillation)๋ฅผ ์ฌ์ฉํ์ฌ, ๊ฑฐ์ ๋ชจ๋ ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ ์ ์งํ๋ฉด์ ๋ ์์ ๋ฒ์ ์ BERT๋ฅผ ๋ง๋ญ๋๋ค.
๊ทธ๋ฌ๋ ๋๋ถ๋ถ์ Transformer ๋ชจ๋ธ์ ๋ ๋ง์ ๋งค๊ฐ๋ณ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝํฅ์ด ์ด์ด์ก๊ณ , ์ด์ ๋ฐ๋ผ ํ๋ จ ํจ์จ์ฑ์ ๊ฐ์ ํ๋ ๊ฒ์ ์ค์ ์ ๋ ์๋ก์ด ๋ชจ๋ธ์ด ๋ฑ์ฅํ์ต๋๋ค. ALBERT๋ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๋งค๊ฐ๋ณ์ ์๋ฅผ ์ค์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์์ต๋๋ค. ๋ฐ๋ก ํฐ ์ดํ๋ฅผ ๋ ๊ฐ์ ์์ ํ๋ ฌ๋ก ๋ถ๋ฆฌํ๋ ๊ฒ๊ณผ ๋ ์ด์ด๊ฐ ๋งค๊ฐ๋ณ์๋ฅผ ๊ณต์ ํ๋๋ก ํ๋ ๊ฒ์
๋๋ค. DeBERTa๋ ๋จ์ด์ ๊ทธ ์์น๋ฅผ ๋ ๊ฐ์ ๋ฒกํฐ๋ก ๊ฐ๋ณ์ ์ผ๋ก ์ธ์ฝ๋ฉํ๋ ๋ถ๋ฆฌ๋(disentangled) ์ดํ
์
๋ฉ์ปค๋์ฆ์ ์ถ๊ฐํ์ต๋๋ค. ์ดํ
์
์ ๋จ์ด์ ์์น ์๋ฒ ๋ฉ์ ํฌํจํ๋ ๋จ์ผ ๋ฒกํฐ ๋์ ์ด ๋ณ๋์ ๋ฒกํฐ์์ ๊ณ์ฐ๋ฉ๋๋ค. Longformer๋ ํนํ ์ํ์ค ๊ธธ์ด๊ฐ ๊ธด ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ ๋, ์ดํ
์
์ ๋ ํจ์จ์ ์ผ๋ก ๋ง๋๋ ๊ฒ์ ์ค์ ์ ๋์์ต๋๋ค. ์ง์ญ(local) ์๋์ฐ ์ดํ
์
(๊ฐ ํ ํฐ ์ฃผ๋ณ์ ๊ณ ์ ๋ ์๋์ฐ ํฌ๊ธฐ์์๋ง ๊ณ์ฐ๋๋ ์ดํ
์
)๊ณผ ์ ์ญ(global) ์ดํ
์
(๋ถ๋ฅ๋ฅผ ์ํด [CLS]
์ ๊ฐ์ ํน์ ์์
ํ ํฐ์๋ง ํด๋น)์ ์กฐํฉ์ ์ฌ์ฉํ์ฌ ์ ์ฒด(full) ์ดํ
์
ํ๋ ฌ ๋์ ํฌ์(sparse) ์ดํ
์
ํ๋ ฌ์ ์์ฑํฉ๋๋ค.
๋์ฝ๋[[nlp-decoder]]
GPT-2๋ ์ํ์ค์์ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋์ฝ๋ ์ ์ฉ Transformer์ ๋๋ค. ํ ํฐ์ ์ค๋ฅธ์ชฝ์ผ๋ก ๋ง์คํนํ์ฌ ๋ชจ๋ธ์ด ์ด์ ํ ํฐ์ ๋ณด๊ณ "๋ถ์ ํ์"๋ฅผ ํ์ง ๋ชปํ๋๋ก ํฉ๋๋ค. GPT-2๋ ๋ฐฉ๋ํ ํ ์คํธ์ ๋ํด ์ฌ์ ํ๋ จํ์ฌ ํ ์คํธ๊ฐ ์ผ๋ถ๋ง ์ ํํ๊ฑฐ๋ ์ฌ์ค์ธ ๊ฒฝ์ฐ์๋ ์๋นํ ๋ฅ์ํ๊ฒ ํ ์คํธ๋ฅผ ์์ฑํ ์ ์๊ฒ ๋์์ต๋๋ค. ํ์ง๋ง GPT-2๋ BERT๊ฐ ์ฌ์ ํ๋ จ์์ ๊ฐ๋ ์๋ฐฉํฅ ์ปจํ ์คํธ๊ฐ ๋ถ์กฑํ๊ธฐ ๋๋ฌธ์ ํน์ ์์ ์ ์ ํฉํ์ง ์์์ต๋๋ค. XLNET์ ์๋ฐฉํฅ ํ๋ จ์ด ๊ฐ๋ฅํ permutation language modeling objective(PLM)๋ฅผ ์ฌ์ฉํ์ฌ BERT์ GPT-2์ ์ฌ์ ํ๋ จ ๋ชฉํ์ ๋ํ ์ฅ์ ์ ํจ๊ป ๊ฐ์ง๊ณ ์์ต๋๋ค.
GPT-2 ์ดํ, ์ธ์ด ๋ชจ๋ธ์ ๋์ฑ ๊ฑฐ๋ํด์ก๊ณ ํ์ฌ๋ *๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)*๋ก ์๋ ค์ ธ ์์ต๋๋ค. ์ถฉ๋ถํ ํฐ ๋ฐ์ดํฐ ์ธํธ๋ก ์ฌ์ ํ๋ จ๋ LLM์ ํจ์ท(few-shot) ๋๋ ์ ๋ก์ท(zero-shot) ํ์ต์ ์ํํฉ๋๋ค. GPT-J๋ 6B ํฌ๊ธฐ์ ๋งค๊ฐ๋ณ์๊ฐ ์๊ณ 400B ํฌ๊ธฐ์ ํ ํฐ์ผ๋ก ํ๋ จ๋ LLM์ ๋๋ค. GPT-J์ ์ด์ด ๋์ฝ๋ ์ ์ฉ ๋ชจ๋ธ๊ตฐ์ธ OPT๊ฐ ๋ฑ์ฅํ์ผ๋ฉฐ, ์ด ์ค ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ 175B ํฌ๊ธฐ์ด๊ณ 180B ํฌ๊ธฐ์ ํ ํฐ์ผ๋ก ํ๋ จ๋์์ต๋๋ค. BLOOM์ ๋น์ทํ ์๊ธฐ์ ์ถ์๋์์ผ๋ฉฐ, ์ด ์ค ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ 176B ํฌ๊ธฐ์ ๋งค๊ฐ๋ณ์๊ฐ ์๊ณ 46๊ฐ์ ์ธ์ด์ 13๊ฐ์ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ก ๋ 366B ํฌ๊ธฐ์ ํ ํฐ์ผ๋ก ํ๋ จ๋์์ต๋๋ค.
์ธ์ฝ๋-๋์ฝ๋[[nlp-encoder-decoder]]
BART๋ ๊ธฐ๋ณธ Transformer ์ํคํ
์ฒ๋ฅผ ์ ์งํ์ง๋ง, ์ผ๋ถ ํ
์คํธ ์คํฌ(span)์ด ๋จ์ผ ๋ง์คํฌ
ํ ํฐ์ผ๋ก ๋์ฒด๋๋ text infilling ๋ณํ์ผ๋ก ์ฌ์ ํ๋ จ ๋ชฉํ๋ฅผ ์์ ํฉ๋๋ค. ๋์ฝ๋๋ ๋ณํ๋์ง ์์ ํ ํฐ(ํฅํ ํ ํฐ์ ๋ง์คํน๋จ)์ ์์ธกํ๊ณ ์ธ์ฝ๋์ ์๋ ์ํ๋ฅผ ์ฌ์ฉํ์ฌ ์ด ์์
์ ๋์ต๋๋ค. Pegasus๋ BART์ ์ ์ฌํ์ง๋ง, Pegasus๋ ํ
์คํธ ์คํฌ ๋์ ์ ์ฒด ๋ฌธ์ฅ์ ๋ง์คํนํฉ๋๋ค. Pegasus๋ ๋ง์คํฌ๋ ์ธ์ด ๋ชจ๋ธ๋ง ์ธ์๋ gap sentence generation(GSG)๋ก ์ฌ์ ํ๋ จ๋ฉ๋๋ค. GSG๋ ๋ฌธ์์ ์ค์ํ ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ๋ง์คํนํ์ฌ ๋ง์คํฌ
ํ ํฐ์ผ๋ก ๋์ฒดํ๋ ๊ฒ์ ๋ชฉํ๋ก ํฉ๋๋ค. ๋์ฝ๋๋ ๋จ์ ๋ฌธ์ฅ์์ ์ถ๋ ฅ์ ์์ฑํด์ผ ํฉ๋๋ค. T5๋ ํน์ ์ ๋์ฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ NLP ์์
์ ํ
์คํธ ํฌ ํ
์คํธ ๋ฌธ์ ๋ก ๋ณํํ๋ ๋ ํน์ํ ๋ชจ๋ธ์
๋๋ค. ์๋ฅผ ๋ค์ด, ์ ๋์ฌ Summarize:
์ ์์ฝ ์์
์ ๋ํ๋
๋๋ค. T5๋ ์ง๋(GLUE ๋ฐ SuperGLUE) ํ๋ จ๊ณผ ์๊ธฐ์ง๋ ํ๋ จ(ํ ํฐ์ 15%๋ฅผ ์์๋ก ์ํ๋งํ์ฌ ์ ๊ฑฐ)์ผ๋ก ์ฌ์ ํ๋ จ๋ฉ๋๋ค.
์ค๋์ค[[audio]]
์ธ์ฝ๋[[audio-encoder]]
Wav2Vec2๋ Transformer ์ธ์ฝ๋๋ฅผ ์ฌ์ฉํ์ฌ ์๋ณธ ์ค๋์ค ํํ(raw audio waveform)์์ ์ง์ ์์ฑ ํํ์ ํ์ตํฉ๋๋ค. ํ์ ์์ฑ ํํ ์ธํธ์์ ์ค์ ์์ฑ ํํ์ ํ๋ณํ๋ ๋์กฐ ์์ ์ผ๋ก ์ฌ์ ํ๋ จ๋ฉ๋๋ค. HuBERT๋ Wav2Vec2์ ์ ์ฌํ์ง๋ง ํ๋ จ ๊ณผ์ ์ด ๋ค๋ฆ ๋๋ค. ํ๊ฒ ๋ ์ด๋ธ์ด ์ ์ฌํ ์ค๋์ค ์ธ๊ทธ๋จผํธ๊ฐ ํด๋ฌ์คํฐ์ ํ ๋น๋์ด ์๋ ๋จ์(unit)๊ฐ ๋๋ ๊ตฐ์งํ(clustering) ๋จ๊ณ์์ ์์ฑ๋ฉ๋๋ค. ์๋ ๋จ์๋ ์์ธก์ ์ํ ์๋ฒ ๋ฉ์ ๋งคํ๋ฉ๋๋ค.
์ธ์ฝ๋-๋์ฝ๋[[audio-encoder-decoder]]
Speech2Text๋ ์๋ ์์ฑ ์ธ์(ASR) ๋ฐ ์์ฑ ๋ฒ์ญ์ ์ํด ๊ณ ์๋ ์์ฑ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ ์ค๋์ค ํํ์์ ์ถ์ถํ log mel-filter bank ํน์ง์ ์ฑํํ๊ณ ์๊ธฐํ๊ท ๋ฐฉ์์ผ๋ก ์ฌ์ ํ๋ จํ์ฌ, ์ ์ฌ๋ณธ ๋๋ ๋ฒ์ญ์ ๋ง๋ญ๋๋ค. Whisper์ ASR ๋ชจ๋ธ์ด์ง๋ง, ๋ค๋ฅธ ๋ง์ ์์ฑ ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ ์ ๋ก์ท ์ฑ๋ฅ์ ์ํด ๋๋์ โจ ๋ ์ด๋ธ์ด ์ง์ ๋ โจ ์ค๋์ค ์ ์ฌ ๋ฐ์ดํฐ์ ๋ํด ์ฌ์ ํ๋ จ๋ฉ๋๋ค. ๋ฐ์ดํฐ ์ธํธ์ ํฐ ๋ฌถ์์๋ ์์ด๊ฐ ์๋ ์ธ์ด๋ ํฌํจ๋์ด ์์ด์ ์์์ด ์ ์ ์ธ์ด์๋ Whisper๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค. ๊ตฌ์กฐ์ ์ผ๋ก, Whisper๋ Speech2Text์ ์ ์ฌํฉ๋๋ค. ์ค๋์ค ์ ํธ๋ ์ธ์ฝ๋์ ์ํด ์ธ์ฝ๋ฉ๋ log-mel spectrogram์ผ๋ก ๋ณํ๋ฉ๋๋ค. ๋์ฝ๋๋ ์ธ์ฝ๋์ ์๋ ์ํ์ ์ด์ ํ ํฐ์ผ๋ก๋ถํฐ ์๊ธฐํ๊ท ๋ฐฉ์์ผ๋ก ์ ์ฌ๋ฅผ ์์ฑํฉ๋๋ค.
๋ฉํฐ๋ชจ๋ฌ[[multimodal]]
์ธ์ฝ๋[[mm-encoder]]
VisualBERT๋ BERT ์ดํ์ ์ถ์๋ ๋น์ ์ธ์ด ์์ ์ ์ํ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์ ๋๋ค. ์ด ๋ชจ๋ธ์ BERT์ ์ฌ์ ํ๋ จ๋ ๊ฐ์ฒด ํ์ง ์์คํ ์ ๊ฒฐํฉํ์ฌ ์ด๋ฏธ์ง ํน์ง์ ์๊ฐ ์๋ฒ ๋ฉ์ผ๋ก ์ถ์ถํ๊ณ , ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ํจ๊ป BERT๋ก ์ ๋ฌํฉ๋๋ค. VisualBERT๋ ๋ง์คํน๋์ง ์์ ํ ์คํธ์ ์๊ฐ ์๋ฒ ๋ฉ์ ๊ธฐ๋ฐ์ผ๋ก ๋ง์คํน๋ ํ ์คํธ๋ฅผ ์์ธกํ๊ณ , ํ ์คํธ๊ฐ ์ด๋ฏธ์ง์ ์ผ์นํ๋์ง ์์ธกํด์ผ ํฉ๋๋ค. ViT๊ฐ ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ๊ตฌํ๋ ๋ฐฉ์์ด ๋ ์ฌ์ ๊ธฐ ๋๋ฌธ์, ViT๊ฐ ์ถ์๋ ํ ViLT๋ ์ํคํ ์ฒ์ ViT๋ฅผ ์ฑํํ์ต๋๋ค. ์ด๋ฏธ์ง ์๋ฒ ๋ฉ์ ํ ์คํธ ์๋ฒ ๋ฉ๊ณผ ํจ๊ป ์ฒ๋ฆฌ๋ฉ๋๋ค. ์ฌ๊ธฐ์์, ViLT๋ ์ด๋ฏธ์ง ํ ์คํธ ๋งค์นญ, ๋ง์คํฌ๋ ์ธ์ด ๋ชจ๋ธ๋ง, ์ ์ฒด ๋จ์ด ๋ง์คํน์ ํตํด ์ฌ์ ํ๋ จ๋ฉ๋๋ค.
CLIP์ ๋ค๋ฅธ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉํ์ฌ (์ด๋ฏธ์ง
, ํ
์คํธ
)์ ์ ์์ธก์ ์ํํฉ๋๋ค. (์ด๋ฏธ์ง
, ํ
์คํธ
) ์์์์ ์ด๋ฏธ์ง์ ํ
์คํธ ์๋ฒ ๋ฉ ๊ฐ์ ์ ์ฌ๋๋ฅผ ์ต๋ํํ๊ธฐ ์ํด 4์ต ๊ฐ์ (์ด๋ฏธ์ง
, ํ
์คํธ
) ์ ๋ฐ์ดํฐ ์ธํธ์ ๋ํด ์ด๋ฏธ์ง ์ธ์ฝ๋(ViT)์ ํ
์คํธ ์ธ์ฝ๋(Transformer)๋ฅผ ํจ๊ป ํ๋ จํฉ๋๋ค. ์ฌ์ ํ๋ จ ํ, ์์ฐ์ด๋ฅผ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๊ฐ ์ฃผ์ด์ง ํ
์คํธ๋ฅผ ์์ธกํ๊ฑฐ๋ ๊ทธ ๋ฐ๋๋ก ์์ธกํ๋๋ก CLIP์ ์ง์ํ ์ ์์ต๋๋ค. OWL-ViT๋ CLIP์ ์ ๋ก์ท ๊ฐ์ฒด ํ์ง๋ฅผ ์ํ ๋ฐฑ๋ณธ(backbone)์ผ๋ก ์ฌ์ฉํ์ฌ CLIP ์์ ๊ตฌ์ถ๋ฉ๋๋ค. ์ฌ์ ํ๋ จ ํ, ๊ฐ์ฒด ํ์ง ํค๋๊ฐ ์ถ๊ฐ๋์ด (ํด๋์ค
, ๋ฐ์ด๋ฉ ๋ฐ์ค
) ์์ ๋ํ ์งํฉ(set) ์์ธก์ ์ํํฉ๋๋ค.
์ธ์ฝ๋-๋์ฝ๋[[mm-encoder-decoder]]
๊ดํ ๋ฌธ์ ์ธ์(OCR)์ ์ด๋ฏธ์ง๋ฅผ ์ดํดํ๊ณ ํ
์คํธ๋ฅผ ์์ฑํ๊ธฐ ์ํด ๋ค์ํ ๊ตฌ์ฑ ์์๋ฅผ ํ์๋ก ํ๋ ์ ํต์ ์ธ ํ
์คํธ ์ธ์ ์์
์
๋๋ค. TrOCR์ ์ข
๋จ๊ฐ(end-to-end) Transformer๋ฅผ ์ฌ์ฉํ์ฌ ์ด ํ๋ก์ธ์ค๋ฅผ ๊ฐ์ํํฉ๋๋ค. ์ธ์ฝ๋๋ ์ด๋ฏธ์ง ์ดํด๋ฅผ ์ํ ViT ๋ฐฉ์์ ๋ชจ๋ธ์ด๋ฉฐ ์ด๋ฏธ์ง๋ฅผ ๊ณ ์ ๋ ํฌ๊ธฐ์ ํจ์น๋ก ์ฒ๋ฆฌํฉ๋๋ค. ๋์ฝ๋๋ ์ธ์ฝ๋์ ์๋ ์ํ๋ฅผ ๋ฐ์์ ์๊ธฐํ๊ท ๋ฐฉ์์ผ๋ก ํ
์คํธ๋ฅผ ์์ฑํฉ๋๋ค. Donut์ OCR ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ์์กดํ์ง ์๋ ๋ ์ผ๋ฐ์ ์ธ ์๊ฐ ๋ฌธ์ ์ดํด ๋ชจ๋ธ์
๋๋ค. ์ด ๋ชจ๋ธ์ Swin Transformer๋ฅผ ์ธ์ฝ๋๋ก, ๋ค๊ตญ์ด BART๋ฅผ ๋์ฝ๋๋ก ์ฌ์ฉํฉ๋๋ค. Donut์ ์ด๋ฏธ์ง์ ํ
์คํธ ์ฃผ์์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ์ฌ ํ
์คํธ๋ฅผ ์ฝ๋๋ก ์ฌ์ ํ๋ จ๋ฉ๋๋ค. ๋์ฝ๋๋ ํ๋กฌํํธ๊ฐ ์ฃผ์ด์ง๋ฉด ํ ํฐ ์ํ์ค๋ฅผ ์์ฑํฉ๋๋ค. ํ๋กฌํํธ๋ ๊ฐ ๋ค์ด์คํธ๋ฆผ ์์
์ ๋ํ ํน์ ํ ํฐ์ผ๋ก ํํ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ฌธ์ ํ์ฑ(parsing)์๋ ์ธ์ฝ๋์ ์๋ ์ํ์ ๊ฒฐํฉ๋์ด ๋ฌธ์๋ฅผ ์ ํ ์ถ๋ ฅ ํ์(JSON)์ผ๋ก ํ์ฑํ๋ ํน์ ํ์ฑ
ํ ํฐ์ด ์์ต๋๋ค.
๊ฐํ ํ์ต[[reinforcement-learning]]
๋์ฝ๋[[rl-decoder]]
Decision ๋ฐ Trajectory Transformer๋ ์ํ(state), ํ๋(action), ๋ณด์(reward)์ ์ํ์ค ๋ชจ๋ธ๋ง ๋ฌธ์ ๋ก ํํํฉ๋๋ค. Decision Transformer๋ ๊ธฐ๋ ๋ณด์(returns-to-go), ๊ณผ๊ฑฐ ์ํ ๋ฐ ํ๋์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋์ ์ํ๋ ์์ต(return)์ผ๋ก ์ด์ด์ง๋ ์ผ๋ จ์ ํ๋์ ์์ฑํฉ๋๋ค. ๋ง์ง๋ง K ์๊ฐ ์คํ (timestep)์ ๋ํด, ์ธ ๊ฐ์ง ๋ชจ๋ฌ๋ฆฌํฐ๋ ๊ฐ๊ฐ ํ ํฐ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํ๋๊ณ GPT์ ๊ฐ์ ๋ชจ๋ธ์ ์ํด ์ฒ๋ฆฌ๋์ด ๋ฏธ๋์ ์ก์ ํ ํฐ์ ์์ธกํฉ๋๋ค. Trajectory Transformer๋ ์ํ, ํ๋, ๋ณด์์ ํ ํฐํํ์ฌ GPT ์ํคํ ์ฒ๋ก ์ฒ๋ฆฌํฉ๋๋ค. ๋ณด์ ์กฐ๊ฑด์ ์ค์ ์ ๋ Decision Transformer์ ๋ฌ๋ฆฌ Trajectory Transformer๋ ๋น ์์น(beam search)๋ก ๋ฏธ๋ ํ๋์ ์์ฑํฉ๋๋ค.