projecte-aina
/

aina-translator-en-ca

Model card Files Files and versions Community

carlosep93 commited on Nov 29, 2022

Commit

07187fd

·

1 Parent(s): da2d3dd

Update README.md

Files changed (1) hide show

README.md +24 -24

README.md CHANGED Viewed

@@ -62,30 +62,30 @@ print(tokenizer.detokenize(translated[0][0]['tokens']))
 The was trained on a combination of the following datasets:
-| Dataset            | Sentences      | Tokens            |
-|--------------------|----------------|-------------------|
-| Global Voices      | 21.342         | 438.032           |
-| Memories Lluires   | 1.173.055      | 9.452.382         |
-| Wikimatrix         | 1.205.908      | 28.111.517        |
-| TED Talks          | 50.979         | 770.774           |
-| Tatoeba            | 5.500          | 34.872            |
-| CoVost 2 ca-en     | 79.633         | 809.660           |
-| CoVost 2 en-ca     | 263.891        | 2.953.096         |
-| Europarl           | 1.965.734      | 50.417.289        |
-| jw300              | 97.081         | 1.809.252         |
-| Crawled Generalitat| 38.595         | 858.385           |
-| Opus Books         | 4.580          | 73.416            |
-| CC Aligned         | 5.787.682      | 89.606.874        |
-| COVID_Wikipedia    | 1.531          | 34.836            |
-| EuroBooks          | 3.746          | 82.067            |
-| Gnome              | 2.183          | 30.228            |
-| KDE 4              | 144.153        | 1.450.631         |
-| OpenSubtitles      | 427.913        | 2.796.350         |
-| QED                | 69.823         | 1.058.003         |
-| Ubuntu             | 6.781          | 33.321            |
-| Wikimedia          | 208.073        | 5.761.409         |
-|--------------------|----------------|-------------------|
-| **Total**          | **11.558.183** | **196.582.394**   |
 ### Training procedure

 The was trained on a combination of the following datasets:
+| Dataset            | Sentences      |
+|--------------------|----------------|
+| Global Voices      | 21.342         |
+| Memories Lluires   | 1.173.055      |
+| Wikimatrix         | 1.205.908      |
+| TED Talks          | 50.979         |
+| Tatoeba            | 5.500          |
+| CoVost 2 ca-en     | 79.633         |
+| CoVost 2 en-ca     | 263.891        |
+| Europarl           | 1.965.734      |
+| jw300              | 97.081         |
+| Crawled Generalitat| 38.595         |
+| Opus Books         | 4.580          |
+| CC Aligned         | 5.787.682      |
+| COVID_Wikipedia    | 1.531          |
+| EuroBooks          | 3.746          |
+| Gnome              | 2.183          |
+| KDE 4              | 144.153        |
+| OpenSubtitles      | 427.913        |
+| QED                | 69.823         |
+| Ubuntu             | 6.781          |
+| Wikimedia          | 208.073        |
+|--------------------|----------------|
+| **Total**          | **11.558.183** |
 ### Training procedure