File size: 1,874 Bytes
c4d4666
 
9cce91e
 
c4d4666
9cce91e
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
59daeef
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
---
license: llama2
language:
- ja
---

## モデル概要
[Watashiha-Llama-2-13B-Ogiri-sft](https://huggingface.co/watashiha/Watashiha-Llama-2-13B-Ogiri-sft)を[LLaVA](https://github.com/haotian-liu/LLaVA)で学習し、画像に対応した大喜利言語モデルです。  
Vision Encoderには[laion/CLIP-ViT-B-32-laion2B-s34B-b79K](https://huggingface.co/laion/CLIP-ViT-B-32-laion2B-s34B-b79K)を使用しています。

* License: [LLAMA 2 COMMUNITY LICENSE](https://github.com/facebookresearch/llama/blob/main/LICENSE)
* Library: [LLaVA](https://github.com/haotian-liu/LLaVA)

## 学習データ
事前学習のデータには[STAIR Captions](https://github.com/STAIR-Lab-CIT/STAIR-captions)を使用しています。  
[STAIR Captions](https://github.com/STAIR-Lab-CIT/STAIR-captions)のデータで学習する際、
[MS COCO 2014](https://cocodataset.org/#home)で以下のライセンスが付与されている画像データは使用しないようにしました。

- [Attribution-NonCommercial-ShareAlike License](http://creativecommons.org/licenses/by-nc-sa/2.0/)
- [Attribution-NonCommercial License](http://creativecommons.org/licenses/by-nc/2.0/)
- [Attribution-NonCommercial-NoDerivs License](http://creativecommons.org/licenses/by-nc-nd/2.0/)
- [No known copyright restrictions](http://flickr.com/commons/usage/)

Fine-tuningのデータには以下のデータを使用しています。
- [Japanese Visual Genome VQA dataset](https://github.com/yahoojapan/ja-vg-vqa)
- [ボケ缶データセット](https://github.com/aws-samples/bokete-denshosen)
- 大喜利データ(テキストのみ)

## 使用方法
以下のGoogle Colabのサンプルコードを参考にしてください。  
[サンプルコード](https://colab.research.google.com/drive/1aAReEzLHTLnt1DmirQgGw7oGEF6XxwqN?usp=sharing)


## 開発者
- 内田 達弥 (UCHIDA, Tatsuya)