leonardlin
commited on
Commit
•
46b2d01
1
Parent(s):
bc9268e
Update README.md
Browse files
README.md
CHANGED
@@ -3,6 +3,9 @@ license: apache-2.0
|
|
3 |
language:
|
4 |
- en
|
5 |
- ja
|
|
|
|
|
|
|
6 |
---
|
7 |
# shisa-base-7b-v1
|
8 |
|
@@ -152,4 +155,4 @@ Mistralのトークン化器を12万トークンまで拡張し、日本語の
|
|
152 |
|
153 |
[ELYZA](https://huggingface.co/elyza)チームが公開した[トークン化器拡張アプローチ](https://zenn.dev/elyza/articles/2fd451c944649d)の詳細に感謝します。これは私たちのトークン化器の出発点として使用されました。
|
154 |
|
155 |
-
もちろん、[Mistral AI](https://huggingface.co/mistralai)による強力なベースモデルのリリースに感謝します!
|
|
|
3 |
language:
|
4 |
- en
|
5 |
- ja
|
6 |
+
datasets:
|
7 |
+
- augmxnt/shisa-pretrain-en-ja-v1
|
8 |
+
- allenai/MADLAD-400
|
9 |
---
|
10 |
# shisa-base-7b-v1
|
11 |
|
|
|
155 |
|
156 |
[ELYZA](https://huggingface.co/elyza)チームが公開した[トークン化器拡張アプローチ](https://zenn.dev/elyza/articles/2fd451c944649d)の詳細に感謝します。これは私たちのトークン化器の出発点として使用されました。
|
157 |
|
158 |
+
もちろん、[Mistral AI](https://huggingface.co/mistralai)による強力なベースモデルのリリースに感謝します!
|