|
--- |
|
license: llama2 |
|
language: |
|
- ja |
|
--- |
|
|
|
## モデル概要 |
|
[Watashiha-Llama-2-13B-Ogiri-sft](https://huggingface.co/watashiha/Watashiha-Llama-2-13B-Ogiri-sft)を[LLaVA](https://github.com/haotian-liu/LLaVA)で学習し、画像に対応した大喜利言語モデルです。 |
|
Vision Encoderには[laion/CLIP-ViT-B-32-laion2B-s34B-b79K](https://huggingface.co/laion/CLIP-ViT-B-32-laion2B-s34B-b79K)を使用しています。 |
|
|
|
* License: [LLAMA 2 COMMUNITY LICENSE](https://github.com/facebookresearch/llama/blob/main/LICENSE) |
|
* Library: [LLaVA](https://github.com/haotian-liu/LLaVA) |
|
|
|
## 学習データ |
|
事前学習のデータには[STAIR Captions](https://github.com/STAIR-Lab-CIT/STAIR-captions)を使用しています。 |
|
[STAIR Captions](https://github.com/STAIR-Lab-CIT/STAIR-captions)のデータで学習する際、 |
|
[MS COCO 2014](https://cocodataset.org/#home)で以下のライセンスが付与されている画像データは使用しないようにしました。 |
|
|
|
- [Attribution-NonCommercial-ShareAlike License](http://creativecommons.org/licenses/by-nc-sa/2.0/) |
|
- [Attribution-NonCommercial License](http://creativecommons.org/licenses/by-nc/2.0/) |
|
- [Attribution-NonCommercial-NoDerivs License](http://creativecommons.org/licenses/by-nc-nd/2.0/) |
|
- [No known copyright restrictions](http://flickr.com/commons/usage/) |
|
|
|
Fine-tuningのデータには以下のデータを使用しています。 |
|
- [Japanese Visual Genome VQA dataset](https://github.com/yahoojapan/ja-vg-vqa) |
|
- [ボケ缶データセット](https://github.com/aws-samples/bokete-denshosen) |
|
- 大喜利データ(テキストのみ) |
|
|
|
## 使用方法 |
|
以下のGoogle Colabのサンプルコードを参考にしてください。 |
|
[サンプルコード](https://colab.research.google.com/drive/1aAReEzLHTLnt1DmirQgGw7oGEF6XxwqN?usp=sharing) |
|
|
|
|
|
## 開発者 |
|
- 内田 達弥 (UCHIDA, Tatsuya) |
|
|