Update README.md
Browse files
README.md
CHANGED
@@ -90,8 +90,8 @@ for question in questions:
|
|
90 |
### 1. 事前学習パイプライン
|
91 |
|
92 |
- 学習データ
|
93 |
-
- [CC-100データセット(Japanese)](http://data.statmt.org/cc-100/)(展開後のサイズ:70.
|
94 |
-
- [Wikipediaデータセット(jawiki-latest-pages-articles.xml.bz2)](https://dumps.wikimedia.org/jawiki/latest/)(展開後のサイズ:16.
|
95 |
|
96 |
- データ前処理
|
97 |
- トークナイザー学習
|
@@ -103,7 +103,6 @@ for question in questions:
|
|
103 |
|
104 |
- 学習データ
|
105 |
- [databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja)(データサイズ:17.1 MB)
|
106 |
-
|
107 |
|
108 |
- データ前処理
|
109 |
- インストラクションチューニング
|
|
|
90 |
### 1. 事前学習パイプライン
|
91 |
|
92 |
- 学習データ
|
93 |
+
- [CC-100データセット(Japanese)](http://data.statmt.org/cc-100/)(展開後のサイズ:70.9 GB)
|
94 |
+
- [Wikipediaデータセット(jawiki-latest-pages-articles.xml.bz2)](https://dumps.wikimedia.org/jawiki/latest/)(展開後のサイズ:16.2 GB)
|
95 |
|
96 |
- データ前処理
|
97 |
- トークナイザー学習
|
|
|
103 |
|
104 |
- 学習データ
|
105 |
- [databricks-dolly-15k-ja](https://huggingface.co/datasets/kunishou/databricks-dolly-15k-ja)(データサイズ:17.1 MB)
|
|
|
106 |
|
107 |
- データ前処理
|
108 |
- インストラクションチューニング
|