Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,47 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language:
|
3 |
+
- ja
|
4 |
+
tags:
|
5 |
+
- t5
|
6 |
+
- text2text-generation
|
7 |
+
- seq2seq
|
8 |
+
license: cc-by-sa-4.0
|
9 |
+
datasets:
|
10 |
+
- wikipedia
|
11 |
+
- oscar
|
12 |
+
- cc100
|
13 |
+
---
|
14 |
+
|
15 |
+
# 日本語T5 Prefix Language Model
|
16 |
+
|
17 |
+
This is a T5 (Text-to-Text Transfer Transformer) Prefix Language Model fine-tuned on Japanese corpus.
|
18 |
+
|
19 |
+
このモデルは日本語T5事前学習済みモデル([sonoisa/t5-base-japanese-v1.1](https://huggingface.co/sonoisa/t5-base-japanese-v1.1))を初期値にして、Prefix Language Modelタスク(与えられたトークン列の続きのトークン列を予測するタスク)用に100Kステップ追加学習したものです。
|
20 |
+
|
21 |
+
追加学習には次の日本語コーパス(約100GB)を用いました。
|
22 |
+
|
23 |
+
* [Wikipedia](https://ja.wikipedia.org)の日本語ダンプデータ (2022年6月27日時点のもの)
|
24 |
+
* [OSCAR](https://oscar-corpus.com)の日本語コーパス
|
25 |
+
* [CC-100](http://data.statmt.org/cc-100/)の日本語コーパス
|
26 |
+
|
27 |
+
|
28 |
+
# サンプルコード
|
29 |
+
|
30 |
+
準備中
|
31 |
+
|
32 |
+
|
33 |
+
# 免責事項
|
34 |
+
|
35 |
+
本モデルの作者は本モデルを作成するにあたって、その内容、機能等について細心の注意を払っておりますが、モデルの出力が正確であるかどうか、安全なものであるか等について保証をするものではなく、何らの責任を負うものではありません。本モデルの利用により、万一、利用者に何らかの不都合や損害が発生したとしても、モデルやデータセットの作者や作者の所属組織は何らの責任を負うものではありません。利用者には本モデルやデータセットの作者や所属組織が責任を負わないことを明確にする義務があります。
|
36 |
+
|
37 |
+
|
38 |
+
# ライセンス
|
39 |
+
|
40 |
+
[CC-BY SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/deed.ja)
|
41 |
+
|
42 |
+
[Common Crawlの利用規約](http://commoncrawl.org/terms-of-use/)も守るようご注意ください。
|
43 |
+
|
44 |
+
|
45 |
+
# 謝辞
|
46 |
+
|
47 |
+
本モデルはオージス総研 鵜野和也さんによる記事「[はじめての自然言語処理 第21回 T5X と Prompt Tuning の検証](https://www.ogis-ri.co.jp/otc/hiroba/technical/similar-document-search/part21.html)」の内容をもとに作成しました。素晴らしい記事を公開していただけたことに大変感謝いたします。
|