llm-jp
/

llm-jp-13b-v2.0

Text Generation

text-generation-inference

Model card Files Files and versions Community

hkiyomaru commited on Apr 24, 2024

Commit

8250994

·

verified ·

1 Parent(s): e51b61c

Update README.md

Files changed (1) hide show

README.md +5 -5

README.md CHANGED Viewed

@@ -113,11 +113,11 @@ The models have been pre-trained using a blend of the following datasets.
 | Language | Dataset | Tokens|
 |:---:|:---:|:---:|
-|Japanese|[Wikipedia](https://huggingface.co/datasets/wikipedia)|1.5B
-||[mC4](https://huggingface.co/datasets/mc4)|136B
-|English|[Wikipedia](https://huggingface.co/datasets/wikipedia)|5B
-||[The Pile](https://huggingface.co/datasets/EleutherAI/pile)|135B
-|Codes|[The Stack](https://huggingface.co/datasets/bigcode/the-stack)|10B
 ### Instruction tuning (To be updated)

 | Language | Dataset | Tokens|
 |:---:|:---:|:---:|
+|Japanese|[Wikipedia](https://huggingface.co/datasets/wikipedia)|1.4B
+||[Common Crawl](https://gitlab.llm-jp.nii.ac.jp/datasets/llm-jp-corpus)|130.7B
+|English|[Wikipedia](https://huggingface.co/datasets/wikipedia)|4.7B
+||[The Pile](https://huggingface.co/datasets/EleutherAI/pile)|110.3B
+|Codes|[The Stack](https://huggingface.co/datasets/bigcode/the-stack)|8.7B
 ### Instruction tuning (To be updated)