Spaces:
Paused
Paused
File size: 20,025 Bytes
ee6e328 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 |
<!--Copyright 2020 The HuggingFace Team. All rights reserved.
Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with
the License. You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on
an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the
specific language governing permissions and limitations under the License.
β οΈ Note that this file is in Markdown but contain specific syntax for our doc-builder (similar to MDX) that may not be
rendered properly in your Markdown viewer.
-->
# Transformer λͺ¨λΈκ΅°[[the-transformer-model-family]]
2017λ
μ μκ°λ [κΈ°λ³Έ Transformer](https://arxiv.org/abs/1706.03762) λͺ¨λΈμ μμ°μ΄ μ²λ¦¬(NLP) μμ
μ λμ΄ μλ‘κ³ ν₯λ―Έλ‘μ΄ λͺ¨λΈλ€μ μκ°μ μ£Όμμ΅λλ€. [λ¨λ°±μ§ μ ν ꡬ쑰 μμΈ‘](https://huggingface.co/blog/deep-learning-with-proteins), [μΉνμ λ¬λ¦¬κΈ° νλ ¨](https://huggingface.co/blog/train-decision-transformers), [μκ³μ΄ μμΈ‘](https://huggingface.co/blog/time-series-transformers) λ±μ μν λ€μν λͺ¨λΈμ΄ μ겨λ¬μ΅λλ€. Transformerμ λ³νμ΄ λ무 λ§μμ, ν° κ·Έλ¦Όμ λμΉκΈ° μ½μ΅λλ€. νμ§λ§ μ¬κΈ° μλ λͺ¨λ λͺ¨λΈμ 곡ν΅μ μ κΈ°λ³Έ Trasnformer μν€ν
μ²λ₯Ό κΈ°λ°μΌλ‘ νλ€λ μ μ
λλ€. μΌλΆ λͺ¨λΈμ μΈμ½λ λλ λμ½λλ§ μ¬μ©νκ³ , λ€λ₯Έ λͺ¨λΈλ€μ μΈμ½λμ λμ½λλ₯Ό λͺ¨λ μ¬μ©νκΈ°λ ν©λλ€. μ΄λ κ² Transformer λͺ¨λΈκ΅° λ΄ μμ λ 벨μμμ μ°¨μ΄μ μ λΆλ₯νκ³ κ²ν νλ©΄ μ μ©ν λΆλ₯ 체κ³λ₯Ό μ»μ μ μμΌλ©°, μ΄μ μ μ ν΄λ³΄μ§ λͺ»ν Transformer λͺ¨λΈλ€ λν μ΄ν΄νλ λ° λμμ΄ λ κ²μ
λλ€.
κΈ°λ³Έ Transformer λͺ¨λΈμ μ΅μνμ§ μκ±°λ 볡μ΅μ΄ νμν κ²½μ°, Hugging Face κ°μμ [νΈλμ€ν¬λ¨Έλ μ΄λ»κ² λμνλμ?](https://huggingface.co/course/chapter1/4?fw=pt) μ±ν°λ₯Ό νμΈνμΈμ.
<div align="center">
<iframe width="560" height="315" src="https://www.youtube.com/embed/H39Z_720T5s" title="YouTube video player"
frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope;
picture-in-picture" allowfullscreen></iframe>
</div>
## μ»΄ν¨ν° λΉμ [[computer-vision]]
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FacQBpeFBVvrDUlzFlkejoz%2FModelscape-timeline%3Fnode-id%3D0%253A1%26t%3Dm0zJ7m2BQ9oe0WtO-1" allowfullscreen></iframe>
### ν©μ±κ³± λ€νΈμν¬[[convolutional-network]]
[Vision Transformer](https://arxiv.org/abs/2010.11929)κ° νμ₯μ±κ³Ό ν¨μ¨μ±μ μ
μ¦νκΈ° μ κΉμ§ μ€λ«λμ ν©μ±κ³± λ€νΈμν¬(CNN)κ° μ»΄ν¨ν° λΉμ μμ
μ μ§λ°°μ μΈ ν¨λ¬λ€μμ΄μμ΅λλ€. κ·ΈλΌμλ λΆκ΅¬νκ³ , μ΄λ λΆλ³μ±(translation invariance)κ³Ό κ°μ CNNμ μ°μν λΆλΆμ΄ λλλΌμ§κΈ° λλ¬Έμ λͺλͺ (νΉν νΉμ κ³Όμ
μμμ) Transformer λͺ¨λΈμ μν€ν
μ²μ ν©μ±κ³±μ ν΅ν©νκΈ°λ νμ΅λλ€. [ConvNeXt](model_doc/convnext)λ μ΄λ° κ΄λ‘λ₯Ό λ€μ§μ΄ CNNμ νλννκΈ° μν΄ Transformerμ λμμΈμ μ°¨μ©ν©λλ€. μλ₯Ό λ€λ©΄ ConvNeXtλ κ²ΉμΉμ§ μλ μ¬λΌμ΄λ© μ°½(sliding window)μ μ¬μ©νμ¬ μ΄λ―Έμ§λ₯Ό ν¨μΉννκ³ , λ ν° μ»€λλ‘ μ μ μμ© νλ(global receptive field)λ₯Ό νμ₯μν΅λλ€. ConvNeXtλ λν λ©λͺ¨λ¦¬ ν¨μ¨μ λμ΄κ³ μ±λ₯μ ν₯μμν€κΈ° μν΄ μ¬λ¬ λ μ΄μ΄ μ€κ³λ₯Ό μ ννκΈ° λλ¬Έμ Transformerμ 견μ€λ§ν©λλ€!
### μΈμ½λ[[cv-encoder]]
[Vision Transformer(ViT)](model_doc/vit)λ ν©μ±κ³± μλ μ»΄ν¨ν° λΉμ μμ
μ λ§μ μ΄μμ΅λλ€. ViTλ νμ€ Transformer μΈμ½λλ₯Ό μ¬μ©νμ§λ§, κ°μ₯ ν° νμ μ μ΄λ―Έμ§λ₯Ό μ²λ¦¬νλ λ°©μμ΄μμ΅λλ€. λ¬Έμ₯μ ν ν°μΌλ‘ λΆν νλ κ²μ²λΌ μ΄λ―Έμ§λ₯Ό κ³ μ λ ν¬κΈ°μ ν¨μΉλ‘ λΆν νκ³ , μ΄λ₯Ό μ¬μ©νμ¬ μλ² λ©μ μμ±ν©λλ€. ViTλ Transformerμ ν¨μ¨μ μΈ μν€ν
μ²λ₯Ό νμ©νμ¬ νλ ¨μ λ μ μ μμμ μ¬μ©νλ©΄μλ λΉμ CNNμ λΉκ²¬νλ κ²°κ³Όλ₯Ό μ
μ¦νμ΅λλ€. κ·Έλ¦¬κ³ ViTλ₯Ό λ€μ΄μ΄ λΆν (segmentation)κ³Ό κ°μ κ³ λ°λ λΉμ μμ
κ³Ό νμ§ μμ
λ λ€λ£° μ μλ λ€λ₯Έ λΉμ λͺ¨λΈμ΄ λ±μ₯νμ΅λλ€.
μ΄λ¬ν λͺ¨λΈ μ€ νλκ° [Swin](model_doc/swin) Transformerμ
λλ€. μ΄ λͺ¨λΈμ μμ ν¬κΈ°μ ν¨μΉμμ κ³μΈ΅μ νΉμ§ λ§΅(CNN πκ³Ό κ°μ§λ§ ViTμλ λ€λ¦)μ λ§λ€κ³ λ κΉμ λ μ΄μ΄μ μΈμ ν¨μΉμ λ³ν©ν©λλ€. μ΄ν
μ
(Attention)μ μ§μ μλμ° λ΄μμλ§ κ³μ°λλ©°, λͺ¨λΈμ΄ λ μ νμ΅ν μ μλλ‘ μ΄ν
μ
λ μ΄μ΄ κ°μ μλμ°λ₯Ό μ΄λνλ©° μ°κ²°μ μμ±ν©λλ€. Swin Transformerλ κ³μΈ΅μ νΉμ§ λ§΅μ μμ±ν μ μμΌλ―λ‘, λΆν (segmentation)κ³Ό νμ§μ κ°μ κ³ λ°λ μμΈ‘ μμ
μ μ ν©ν©λλ€. [SegFormer](model_doc/segformer) μμ Transformer μΈμ½λλ₯Ό μ¬μ©νμ¬ κ³μΈ΅μ νΉμ§ λ§΅μ ꡬμΆνμ§λ§, μλ¨μ κ°λ¨ν λ€μΈ΅ νΌμ
νΈλ‘ (MLP) λμ½λλ₯Ό μΆκ°νμ¬ λͺ¨λ νΉμ§ λ§΅μ κ²°ν©νκ³ μμΈ‘μ μνν©λλ€.
BeITμ ViTMAEμ κ°μ λ€λ₯Έ λΉμ λͺ¨λΈμ BERTμ μ¬μ νλ ¨ λͺ©ν(objective)μμ μκ°μ μ»μμ΅λλ€. [BeIT](model_doc/beit)λ *λ§μ€ν¬λ μ΄λ―Έμ§ λͺ¨λΈλ§(MIM)*μΌλ‘ μ¬μ νλ ¨λλ©°, μ΄λ―Έμ§ ν¨μΉλ μμλ‘ λ§μ€νΉλκ³ μ΄λ―Έμ§λ μκ°μ ν ν°μΌλ‘ ν ν°νλ©λλ€. BeITλ λ§μ€νΉλ ν¨μΉμ ν΄λΉνλ μκ°μ ν ν°μ μμΈ‘νλλ‘ νμ΅λ©λλ€. [ViTMAE](model_doc/vitmae)λ λΉμ·ν μ¬μ νλ ¨ λͺ©νκ° μμ§λ§, μκ°μ ν ν° λμ ν½μ
μ μμΈ‘ν΄μΌ νλ€λ μ μ΄ λ€λ¦
λλ€. νΉμ΄ν μ μ μ΄λ―Έμ§ ν¨μΉμ 75%κ° λ§μ€νΉλμ΄ μλ€λ κ²μ
λλ€! λμ½λλ λ§μ€νΉλ ν ν°κ³Ό μΈμ½λ©λ ν¨μΉμμ ν½μ
μ μ¬κ΅¬μ±ν©λλ€. μ¬μ νλ ¨μ΄ λλλ©΄ λμ½λλ νκΈ°λκ³ μΈμ½λλ λ€μ΄μ€νΈλ¦Ό μμ
μ μ¬μ©ν μ€λΉκ° λ©λλ€.
### λμ½λ[[cv-decoder]]
λλΆλΆμ λΉμ λͺ¨λΈμ μΈμ½λμ μμ‘΄νμ¬ μ΄λ―Έμ§ ννμ νμ΅νκΈ° λλ¬Έμ λμ½λ μ μ© λΉμ λͺ¨λΈμ λλ
λλ€. νμ§λ§ μ΄λ―Έμ§ μμ± λ±μ μ¬λ‘μ κ²½μ°, GPT-2μ κ°μ ν
μ€νΈ μμ± λͺ¨λΈμμ 보μλ―μ΄ λμ½λκ° κ°μ₯ μ ν©ν©λλ€. [ImageGPT](model_doc/imagegpt)λ GPT-2μ λμΌν μν€ν
μ²λ₯Ό μ¬μ©νμ§λ§, μνμ€μ λ€μ ν ν°μ μμΈ‘νλ λμ μ΄λ―Έμ§μ λ€μ ν½μ
μ μμΈ‘ν©λλ€. ImageGPTλ μ΄λ―Έμ§ μμ± λΏλ§ μλλΌ μ΄λ―Έμ§ λΆλ₯λ₯Ό μν΄ λ―ΈμΈ μ‘°μ ν μλ μμ΅λλ€.
### μΈμ½λ-λμ½λ[[cv-encoder-decoder]]
λΉμ λͺ¨λΈμ μΌλ°μ μΌλ‘ μΈμ½λ(λ°±λ³ΈμΌλ‘λ μλ €μ§)λ₯Ό μ¬μ©νμ¬ μ€μν μ΄λ―Έμ§ νΉμ§μ μΆμΆν ν, μ΄λ₯Ό Transformer λμ½λλ‘ μ λ¬ν©λλ€. [DETR](model_doc/detr)μ μ¬μ νλ ¨λ λ°±λ³Έμ΄ μμ§λ§, κ°μ²΄ νμ§λ₯Ό μν΄ μμ ν Transformer μΈμ½λ-λμ½λ μν€ν
μ²λ μ¬μ©ν©λλ€. μΈμ½λλ μ΄λ―Έμ§ ννμ νμ΅νκ³ μ΄λ₯Ό λμ½λμμ κ°μ²΄ 쿼리(κ° κ°μ²΄ 쿼리λ μ΄λ―Έμ§μ μμ λλ κ°μ²΄μ μ€μ μ λκ³ νμ΅λ μλ² λ©)μ κ²°ν©ν©λλ€. DETRμ κ° κ°μ²΄ 쿼리μ λν λ°μ΄λ© λ°μ€ μ’νμ ν΄λμ€ λ μ΄λΈμ μμΈ‘ν©λλ€.
## μμ°μ΄μ²λ¦¬[[natural-language-processing]]
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FUhbQAZDlpYW5XEpdFy6GoG%2Fnlp-model-timeline%3Fnode-id%3D0%253A1%26t%3D4mZMr4r1vDEYGJ50-1" allowfullscreen></iframe>
### μΈμ½λ[[nlp-encoder]]
[BERT](model_doc/bert)λ μΈμ½λ μ μ© Transformerλ‘, λ€λ₯Έ ν ν°μ λ³΄κ³ μμ "λΆμ νμ"λ₯Ό μ μ§λ₯΄λ κ±Έ λ§κΈ° μν΄ μ
λ ₯μμ νΉμ ν ν°μ μμλ‘ λ§μ€νΉν©λλ€. μ¬μ νλ ¨μ λͺ©νλ 컨ν
μ€νΈλ₯Ό κΈ°λ°μΌλ‘ λ§μ€νΉλ ν ν°μ μμΈ‘νλ κ²μ
λλ€. μ΄λ₯Ό ν΅ν΄ BERTλ μΌμͺ½κ³Ό μ€λ₯Έμͺ½ 컨ν
μ€νΈλ₯Ό μΆ©λΆν νμ©νμ¬ μ
λ ₯μ λν΄ λ κΉκ³ νλΆν ννμ νμ΅ν μ μμ΅λλ€. κ·Έλ¬λ BERTμ μ¬μ νλ ¨ μ λ΅μλ μ¬μ ν κ°μ μ μ¬μ§κ° λ¨μ μμμ΅λλ€. [RoBERTa](model_doc/roberta)λ λ κΈ΄ μκ° λμ λ ν° λ°°μΉμ λν νλ ¨μ ν¬ν¨νκ³ , μ μ²λ¦¬ μ€μ ν λ²λ§ λ§μ€νΉνλ κ²μ΄ μλλΌ κ° μνμμ ν ν°μ μμλ‘ λ§μ€νΉνκ³ , λ€μ λ¬Έμ₯ μμΈ‘ λͺ©νλ₯Ό μ κ±°νλ μλ‘μ΄ μ¬μ νλ ¨ λ°©μμ λμ
ν¨μΌλ‘μ¨ μ΄λ₯Ό κ°μ νμ΅λλ€.
μ±λ₯ κ°μ μ μν μ λ΅μΌλ‘ λͺ¨λΈ ν¬κΈ°λ₯Ό ν€μ°λ κ²μ΄ μ§λ°°μ μ
λλ€. νμ§λ§ ν° λͺ¨λΈμ νλ ¨νλ €λ©΄ κ³μ° λΉμ©μ΄ λ§μ΄ λλλ€. κ³μ° λΉμ©μ μ€μ΄λ ν κ°μ§ λ°©λ²μ [DistilBERT](model_doc/distilbert)μ κ°μ΄ μμ λͺ¨λΈμ μ¬μ©νλ κ²μ
λλ€. DistilBERTλ μμΆ κΈ°λ²μΈ [μ§μ μ¦λ₯(knowledge distillation)](https://arxiv.org/abs/1503.02531)λ₯Ό μ¬μ©νμ¬, κ±°μ λͺ¨λ μΈμ΄ μ΄ν΄ λ₯λ ₯μ μ μ§νλ©΄μ λ μμ λ²μ μ BERTλ₯Ό λ§λλλ€.
κ·Έλ¬λ λλΆλΆμ Transformer λͺ¨λΈμ λ λ§μ λ§€κ°λ³μλ₯Ό μ¬μ©νλ κ²½ν₯μ΄ μ΄μ΄μ‘κ³ , μ΄μ λ°λΌ νλ ¨ ν¨μ¨μ±μ κ°μ νλ κ²μ μ€μ μ λ μλ‘μ΄ λͺ¨λΈμ΄ λ±μ₯νμ΅λλ€. [ALBERT](model_doc/albert)λ λ κ°μ§ λ°©λ²μΌλ‘ λ§€κ°λ³μ μλ₯Ό μ€μ¬ λ©λͺ¨λ¦¬ μ¬μ©λμ μ€μμ΅λλ€. λ°λ‘ ν° μ΄νλ₯Ό λ κ°μ μμ νλ ¬λ‘ λΆλ¦¬νλ κ²κ³Ό λ μ΄μ΄κ° λ§€κ°λ³μλ₯Ό 곡μ νλλ‘ νλ κ²μ
λλ€. [DeBERTa](model_doc/deberta)λ λ¨μ΄μ κ·Έ μμΉλ₯Ό λ κ°μ 벑ν°λ‘ κ°λ³μ μΌλ‘ μΈμ½λ©νλ λΆλ¦¬λ(disentangled) μ΄ν
μ
λ©μ»€λμ¦μ μΆκ°νμ΅λλ€. μ΄ν
μ
μ λ¨μ΄μ μμΉ μλ² λ©μ ν¬ν¨νλ λ¨μΌ λ²‘ν° λμ μ΄ λ³λμ 벑ν°μμ κ³μ°λ©λλ€. [Longformer](model_doc/longformer)λ νΉν μνμ€ κΈΈμ΄κ° κΈ΄ λ¬Έμλ₯Ό μ²λ¦¬ν λ, μ΄ν
μ
μ λ ν¨μ¨μ μΌλ‘ λ§λλ κ²μ μ€μ μ λμμ΅λλ€. μ§μ(local) μλμ° μ΄ν
μ
(κ° ν ν° μ£Όλ³μ κ³ μ λ μλμ° ν¬κΈ°μμλ§ κ³μ°λλ μ΄ν
μ
)κ³Ό μ μ(global) μ΄ν
μ
(λΆλ₯λ₯Ό μν΄ `[CLS]`μ κ°μ νΉμ μμ
ν ν°μλ§ ν΄λΉ)μ μ‘°ν©μ μ¬μ©νμ¬ μ 체(full) μ΄ν
μ
νλ ¬ λμ ν¬μ(sparse) μ΄ν
μ
νλ ¬μ μμ±ν©λλ€.
### λμ½λ[[nlp-decoder]]
[GPT-2](model_doc/gpt2)λ μνμ€μμ λ€μ λ¨μ΄λ₯Ό μμΈ‘νλ λμ½λ μ μ© Transformerμ
λλ€. ν ν°μ μ€λ₯Έμͺ½μΌλ‘ λ§μ€νΉνμ¬ λͺ¨λΈμ΄ μ΄μ ν ν°μ λ³΄κ³ "λΆμ νμ"λ₯Ό νμ§ λͺ»νλλ‘ ν©λλ€. GPT-2λ λ°©λν ν
μ€νΈμ λν΄ μ¬μ νλ ¨νμ¬ ν
μ€νΈκ° μΌλΆλ§ μ ννκ±°λ μ¬μ€μΈ κ²½μ°μλ μλΉν λ₯μνκ² ν
μ€νΈλ₯Ό μμ±ν μ μκ² λμμ΅λλ€. νμ§λ§ GPT-2λ BERTκ° μ¬μ νλ ¨μμ κ°λ μλ°©ν₯ 컨ν
μ€νΈκ° λΆμ‘±νκΈ° λλ¬Έμ νΉμ μμ
μ μ ν©νμ§ μμμ΅λλ€. [XLNET](model_doc/xlnet)μ μλ°©ν₯ νλ ¨μ΄ κ°λ₯ν permutation language modeling objective(PLM)λ₯Ό μ¬μ©νμ¬ BERTμ GPT-2μ μ¬μ νλ ¨ λͺ©νμ λν μ₯μ μ ν¨κ» κ°μ§κ³ μμ΅λλ€.
GPT-2 μ΄ν, μΈμ΄ λͺ¨λΈμ λμ± κ±°λν΄μ‘κ³ νμ¬λ *λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)*λ‘ μλ €μ Έ μμ΅λλ€. μΆ©λΆν ν° λ°μ΄ν° μΈνΈλ‘ μ¬μ νλ ¨λ LLMμ ν¨μ·(few-shot) λλ μ λ‘μ·(zero-shot) νμ΅μ μνν©λλ€. [GPT-J](model_doc/gptj)λ 6B ν¬κΈ°μ λ§€κ°λ³μκ° μκ³ 400B ν¬κΈ°μ ν ν°μΌλ‘ νλ ¨λ LLMμ
λλ€. GPT-Jμ μ΄μ΄ λμ½λ μ μ© λͺ¨λΈκ΅°μΈ [OPT](model_doc/opt)κ° λ±μ₯νμΌλ©°, μ΄ μ€ κ°μ₯ ν° λͺ¨λΈμ 175B ν¬κΈ°μ΄κ³ 180B ν¬κΈ°μ ν ν°μΌλ‘ νλ ¨λμμ΅λλ€. [BLOOM](model_doc/bloom)μ λΉμ·ν μκΈ°μ μΆμλμμΌλ©°, μ΄ μ€ κ°μ₯ ν° λͺ¨λΈμ 176B ν¬κΈ°μ λ§€κ°λ³μκ° μκ³ 46κ°μ μΈμ΄μ 13κ°μ νλ‘κ·Έλλ° μΈμ΄λ‘ λ 366B ν¬κΈ°μ ν ν°μΌλ‘ νλ ¨λμμ΅λλ€.
### μΈμ½λ-λμ½λ[[nlp-encoder-decoder]]
[BART](model_doc/bart)λ κΈ°λ³Έ Transformer μν€ν
μ²λ₯Ό μ μ§νμ§λ§, μΌλΆ ν
μ€νΈ μ€ν¬(span)μ΄ λ¨μΌ `λ§μ€ν¬` ν ν°μΌλ‘ λ체λλ *text infilling* λ³νμΌλ‘ μ¬μ νλ ¨ λͺ©νλ₯Ό μμ ν©λλ€. λμ½λλ λ³νλμ§ μμ ν ν°(ν₯ν ν ν°μ λ§μ€νΉλ¨)μ μμΈ‘νκ³ μΈμ½λμ μλ μνλ₯Ό μ¬μ©νμ¬ μ΄ μμ
μ λμ΅λλ€. [Pegasus](model_doc/pegasus)λ BARTμ μ μ¬νμ§λ§, Pegasusλ ν
μ€νΈ μ€ν¬ λμ μ 체 λ¬Έμ₯μ λ§μ€νΉν©λλ€. Pegasusλ λ§μ€ν¬λ μΈμ΄ λͺ¨λΈλ§ μΈμλ gap sentence generation(GSG)λ‘ μ¬μ νλ ¨λ©λλ€. GSGλ λ¬Έμμ μ€μν λ¬Έμ₯ μ 체λ₯Ό λ§μ€νΉνμ¬ `λ§μ€ν¬` ν ν°μΌλ‘ λ체νλ κ²μ λͺ©νλ‘ ν©λλ€. λμ½λλ λ¨μ λ¬Έμ₯μμ μΆλ ₯μ μμ±ν΄μΌ ν©λλ€. [T5](model_doc/t5)λ νΉμ μ λμ¬λ₯Ό μ¬μ©νμ¬ λͺ¨λ NLP μμ
μ ν
μ€νΈ ν¬ ν
μ€νΈ λ¬Έμ λ‘ λ³ννλ λ νΉμν λͺ¨λΈμ
λλ€. μλ₯Ό λ€μ΄, μ λμ¬ `Summarize:`μ μμ½ μμ
μ λνλ
λλ€. T5λ μ§λ(GLUE λ° SuperGLUE) νλ ¨κ³Ό μκΈ°μ§λ νλ ¨(ν ν°μ 15%λ₯Ό μμλ‘ μνλ§νμ¬ μ κ±°)μΌλ‘ μ¬μ νλ ¨λ©λλ€.
## μ€λμ€[[audio]]
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2Fvrchl8jDV9YwNVPWu2W0kK%2Fspeech-and-audio-model-timeline%3Fnode-id%3D0%253A1%26t%3DmM4H8pPMuK23rClL-1" allowfullscreen></iframe>
### μΈμ½λ[[audio-encoder]]
[Wav2Vec2](model_doc/wav2vec2)λ Transformer μΈμ½λλ₯Ό μ¬μ©νμ¬ μλ³Έ μ€λμ€ νν(raw audio waveform)μμ μ§μ μμ± ννμ νμ΅ν©λλ€. νμ μμ± νν μΈνΈμμ μ€μ μμ± ννμ νλ³νλ λμ‘° μμ
μΌλ‘ μ¬μ νλ ¨λ©λλ€. [HuBERT](model_doc/hubert)λ Wav2Vec2μ μ μ¬νμ§λ§ νλ ¨ κ³Όμ μ΄ λ€λ¦
λλ€. νκ² λ μ΄λΈμ΄ μ μ¬ν μ€λμ€ μΈκ·Έλ¨ΌνΈκ° ν΄λ¬μ€ν°μ ν λΉλμ΄ μλ λ¨μ(unit)κ° λλ κ΅°μ§ν(clustering) λ¨κ³μμ μμ±λ©λλ€. μλ λ¨μλ μμΈ‘μ μν μλ² λ©μ λ§€νλ©λλ€.
### μΈμ½λ-λμ½λ[[audio-encoder-decoder]]
[Speech2Text](model_doc/speech_to_text)λ μλ μμ± μΈμ(ASR) λ° μμ± λ²μμ μν΄ κ³ μλ μμ± λͺ¨λΈμ
λλ€. μ΄ λͺ¨λΈμ μ€λμ€ ννμμ μΆμΆν log mel-filter bank νΉμ§μ μ±ννκ³ μκΈ°νκ· λ°©μμΌλ‘ μ¬μ νλ ¨νμ¬, μ μ¬λ³Έ λλ λ²μμ λ§λλλ€. [Whisper](model_doc/whisper)μ ASR λͺ¨λΈμ΄μ§λ§, λ€λ₯Έ λ§μ μμ± λͺ¨λΈκ³Ό λ¬λ¦¬ μ λ‘μ· μ±λ₯μ μν΄ λλμ β¨ λ μ΄λΈμ΄ μ§μ λ β¨ μ€λμ€ μ μ¬ λ°μ΄ν°μ λν΄ μ¬μ νλ ¨λ©λλ€. λ°μ΄ν° μΈνΈμ ν° λ¬Άμμλ μμ΄κ° μλ μΈμ΄λ ν¬ν¨λμ΄ μμ΄μ μμμ΄ μ μ μΈμ΄μλ Whisperλ₯Ό μ¬μ©ν μ μμ΅λλ€. ꡬ쑰μ μΌλ‘, Whisperλ Speech2Textμ μ μ¬ν©λλ€. μ€λμ€ μ νΈλ μΈμ½λμ μν΄ μΈμ½λ©λ log-mel spectrogramμΌλ‘ λ³νλ©λλ€. λμ½λλ μΈμ½λμ μλ μνμ μ΄μ ν ν°μΌλ‘λΆν° μκΈ°νκ· λ°©μμΌλ‘ μ μ¬λ₯Ό μμ±ν©λλ€.
## λ©ν°λͺ¨λ¬[[multimodal]]
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FcX125FQHXJS2gxeICiY93p%2Fmultimodal%3Fnode-id%3D0%253A1%26t%3DhPQwdx3HFPWJWnVf-1" allowfullscreen></iframe>
### μΈμ½λ[[mm-encoder]]
[VisualBERT](model_doc/visual_bert)λ BERT μ΄νμ μΆμλ λΉμ μΈμ΄ μμ
μ μν λ©ν°λͺ¨λ¬ λͺ¨λΈμ
λλ€. μ΄ λͺ¨λΈμ BERTμ μ¬μ νλ ¨λ κ°μ²΄ νμ§ μμ€ν
μ κ²°ν©νμ¬ μ΄λ―Έμ§ νΉμ§μ μκ° μλ² λ©μΌλ‘ μΆμΆνκ³ , ν
μ€νΈ μλ² λ©κ³Ό ν¨κ» BERTλ‘ μ λ¬ν©λλ€. VisualBERTλ λ§μ€νΉλμ§ μμ ν
μ€νΈμ μκ° μλ² λ©μ κΈ°λ°μΌλ‘ λ§μ€νΉλ ν
μ€νΈλ₯Ό μμΈ‘νκ³ , ν
μ€νΈκ° μ΄λ―Έμ§μ μΌμΉνλμ§ μμΈ‘ν΄μΌ ν©λλ€. ViTκ° μ΄λ―Έμ§ μλ² λ©μ ꡬνλ λ°©μμ΄ λ μ¬μ κΈ° λλ¬Έμ, ViTκ° μΆμλ ν [ViLT](model_doc/vilt)λ μν€ν
μ²μ ViTλ₯Ό μ±ννμ΅λλ€. μ΄λ―Έμ§ μλ² λ©μ ν
μ€νΈ μλ² λ©κ³Ό ν¨κ» μ²λ¦¬λ©λλ€. μ¬κΈ°μμ, ViLTλ μ΄λ―Έμ§ ν
μ€νΈ λ§€μΉ, λ§μ€ν¬λ μΈμ΄ λͺ¨λΈλ§, μ 체 λ¨μ΄ λ§μ€νΉμ ν΅ν΄ μ¬μ νλ ¨λ©λλ€.
[CLIP](model_doc/clip)μ λ€λ₯Έ μ κ·Ό λ°©μμ μ¬μ©νμ¬ (`μ΄λ―Έμ§`, `ν
μ€νΈ`)μ μ μμΈ‘μ μνν©λλ€. (`μ΄λ―Έμ§`, `ν
μ€νΈ`) μμμμ μ΄λ―Έμ§μ ν
μ€νΈ μλ² λ© κ°μ μ μ¬λλ₯Ό μ΅λννκΈ° μν΄ 4μ΅ κ°μ (`μ΄λ―Έμ§`, `ν
μ€νΈ`) μ λ°μ΄ν° μΈνΈμ λν΄ μ΄λ―Έμ§ μΈμ½λ(ViT)μ ν
μ€νΈ μΈμ½λ(Transformer)λ₯Ό ν¨κ» νλ ¨ν©λλ€. μ¬μ νλ ¨ ν, μμ°μ΄λ₯Ό μ¬μ©νμ¬ μ΄λ―Έμ§κ° μ£Όμ΄μ§ ν
μ€νΈλ₯Ό μμΈ‘νκ±°λ κ·Έ λ°λλ‘ μμΈ‘νλλ‘ CLIPμ μ§μν μ μμ΅λλ€. [OWL-ViT](model_doc/owlvit)λ CLIPμ μ λ‘μ· κ°μ²΄ νμ§λ₯Ό μν λ°±λ³Έ(backbone)μΌλ‘ μ¬μ©νμ¬ CLIP μμ ꡬμΆλ©λλ€. μ¬μ νλ ¨ ν, κ°μ²΄ νμ§ ν€λκ° μΆκ°λμ΄ (`ν΄λμ€`, `λ°μ΄λ© λ°μ€`) μμ λν μ§ν©(set) μμΈ‘μ μνν©λλ€.
### μΈμ½λ-λμ½λ[[mm-encoder-decoder]]
κ΄ν λ¬Έμ μΈμ(OCR)μ μ΄λ―Έμ§λ₯Ό μ΄ν΄νκ³ ν
μ€νΈλ₯Ό μμ±νκΈ° μν΄ λ€μν κ΅¬μ± μμλ₯Ό νμλ‘ νλ μ ν΅μ μΈ ν
μ€νΈ μΈμ μμ
μ
λλ€. [TrOCR](model_doc/trocr)μ μ’
λ¨κ°(end-to-end) Transformerλ₯Ό μ¬μ©νμ¬ μ΄ νλ‘μΈμ€λ₯Ό κ°μνν©λλ€. μΈμ½λλ μ΄λ―Έμ§ μ΄ν΄λ₯Ό μν ViT λ°©μμ λͺ¨λΈμ΄λ©° μ΄λ―Έμ§λ₯Ό κ³ μ λ ν¬κΈ°μ ν¨μΉλ‘ μ²λ¦¬ν©λλ€. λμ½λλ μΈμ½λμ μλ μνλ₯Ό λ°μμ μκΈ°νκ· λ°©μμΌλ‘ ν
μ€νΈλ₯Ό μμ±ν©λλ€. [Donut](model_doc/donut)μ OCR κΈ°λ° μ κ·Ό λ°©μμ μμ‘΄νμ§ μλ λ μΌλ°μ μΈ μκ° λ¬Έμ μ΄ν΄ λͺ¨λΈμ
λλ€. μ΄ λͺ¨λΈμ Swin Transformerλ₯Ό μΈμ½λλ‘, λ€κ΅μ΄ BARTλ₯Ό λμ½λλ‘ μ¬μ©ν©λλ€. Donutμ μ΄λ―Έμ§μ ν
μ€νΈ μ£Όμμ κΈ°λ°μΌλ‘ λ€μ λ¨μ΄λ₯Ό μμΈ‘νμ¬ ν
μ€νΈλ₯Ό μ½λλ‘ μ¬μ νλ ¨λ©λλ€. λμ½λλ ν둬ννΈκ° μ£Όμ΄μ§λ©΄ ν ν° μνμ€λ₯Ό μμ±ν©λλ€. ν둬ννΈλ κ° λ€μ΄μ€νΈλ¦Ό μμ
μ λν νΉμ ν ν°μΌλ‘ ννλ©λλ€. μλ₯Ό λ€μ΄, λ¬Έμ νμ±(parsing)μλ μΈμ½λμ μλ μνμ κ²°ν©λμ΄ λ¬Έμλ₯Ό μ ν μΆλ ₯ νμ(JSON)μΌλ‘ νμ±νλ νΉμ `νμ±` ν ν°μ΄ μμ΅λλ€.
## κ°ν νμ΅[[reinforcement-learning]]
<iframe style="border: 1px solid rgba(0, 0, 0, 0.1);" width="1000" height="450" src="https://www.figma.com/embed?embed_host=share&url=https%3A%2F%2Fwww.figma.com%2Ffile%2FiB3Y6RvWYki7ZuKO6tNgZq%2Freinforcement-learning%3Fnode-id%3D0%253A1%26t%3DhPQwdx3HFPWJWnVf-1" allowfullscreen></iframe>
### λμ½λ[[rl-decoder]]
Decision λ° Trajectory Transformerλ μν(state), νλ(action), 보μ(reward)μ μνμ€ λͺ¨λΈλ§ λ¬Έμ λ‘ ννν©λλ€. [Decision Transformer](model_doc/decision_transformer)λ κΈ°λ 보μ(returns-to-go), κ³Όκ±° μν λ° νλμ κΈ°λ°μΌλ‘ λ―Έλμ μνλ μμ΅(return)μΌλ‘ μ΄μ΄μ§λ μΌλ ¨μ νλμ μμ±ν©λλ€. λ§μ§λ§ *K* μκ° μ€ν
(timestep)μ λν΄, μΈ κ°μ§ λͺ¨λ¬λ¦¬ν°λ κ°κ° ν ν° μλ² λ©μΌλ‘ λ³νλκ³ GPTμ κ°μ λͺ¨λΈμ μν΄ μ²λ¦¬λμ΄ λ―Έλμ μ‘μ
ν ν°μ μμΈ‘ν©λλ€. [Trajectory Transformer](model_doc/trajectory_transformer)λ μν, νλ, 보μμ ν ν°ννμ¬ GPT μν€ν
μ²λ‘ μ²λ¦¬ν©λλ€. 보μ 쑰건μ μ€μ μ λ Decision Transformerμ λ¬λ¦¬ Trajectory Transformerλ λΉ μμΉ(beam search)λ‘ λ―Έλ νλμ μμ±ν©λλ€. |