jramompichel
commited on
Commit
•
fd27ae5
1
Parent(s):
98b7114
Update README.md
Browse files
README.md
CHANGED
@@ -9,61 +9,52 @@ metrics:
|
|
9 |
- bleu (Test-suite): 74.3
|
10 |
---
|
11 |
|
12 |
-
**Descrición do Modelo
|
13 |
|
14 |
Modelo feito con OpenNMT para o par español-galego utilizando unha arquitectura transformer.
|
15 |
|
16 |
-
|
17 |
|
18 |
-
|
19 |
-
|
20 |
-
+
|
21 |
-
+
|
22 |
-
+ Instalar / Install [Open NMT toolkit v.2.2](https://github.com/OpenNMT/OpenNMT-py)
|
23 |
-
+ Traducir un input_text utilizando o modelo NOS-MT-es-gl co seguinte comando / Translate an input_text using the NOS-MT-en-gl model with the following command:
|
24 |
|
25 |
```bash
|
26 |
onmt_translate -src input_text -model NOS-MT-es-gl -output ./output_file.txt -replace_unk -phrase_table phrase_table-es-gl.txt -gpu 0
|
27 |
```
|
28 |
-
+ O resultado da tradución estará no PATH indicado no flag -output
|
29 |
|
30 |
-
**Adestramento
|
31 |
|
32 |
No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](https://github.com/proxectonos/corpora). Os primeiros son corpora de traducións feitas directamente por tradutores humanos. Os segundos son corpora de traducións español-portugués, que convertemos en español-galego a través da tradución automática portugués-galego con Opentrad/Apertium e transliteración para palabras fóra de vocabulário.
|
33 |
|
34 |
-
|
35 |
-
|
36 |
-
|
37 |
-
**Procedemento de adestramento / Training process**
|
38 |
|
39 |
-
+
|
40 |
|
41 |
-
+ O vocabulario para os modelos foi xerado a través do script
|
42 |
|
43 |
-
+
|
44 |
|
45 |
```bash
|
46 |
onmt_build_vocab -config bpe-es-gl_emb.yaml -n_sample 100000
|
47 |
onmt_train -config bpe-es-gl_emb.yaml
|
48 |
```
|
49 |
|
50 |
-
**Hiperparámetros
|
51 |
|
52 |
Os parámetros usados para o desenvolvimento do modelo poden ser consultados directamente no mesmo ficheiro .yaml bpe-es-gl_emb.yaml
|
53 |
|
54 |
-
|
55 |
-
|
56 |
-
**Avaliación / Evaluation**
|
57 |
|
58 |
A avaliación BLEU dos modelos é feita cunha mistura de tests desenvolvidos internamente (gold1, gold2, test-suite) con outros datasets disponíbeis en galego (Flores).
|
59 |
|
60 |
-
The BLEU evaluation of the models is done by mixing internally developed tests (gold1, gold2, test-suite) with other datasets available in Galician (Flores).
|
61 |
-
|
62 |
| GOLD 1 | GOLD 2 | FLORES | TEST-SUITE|
|
63 |
| ------------- |:-------------:| -------:|----------:|
|
64 |
| 79.6 | 43.3 | 21.8 | 74.3 |
|
65 |
|
66 |
-
**Licenzas do Modelo
|
67 |
|
68 |
MIT License
|
69 |
|
@@ -87,11 +78,9 @@ LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
|
|
87 |
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
|
88 |
SOFTWARE.
|
89 |
|
90 |
-
**Financiamento
|
91 |
|
92 |
Esta investigación foi financiada polo proxecto "Nós: o galego na sociedade e economía da intelixencia artificial", resultado dun acordo entre a Xunta de Galicia e a Universidade de Santiago de Compostela, o que resultou no subsidio ED431G2019/04 da Consellaría de Educación, Universidade e Formación Profesional da Galiza, e polo Fondo Europeo de Desenvolvemento Rexional (programa ERDF/FEDER), e Grupos de Referencia: ED431C 2020/21.
|
93 |
|
94 |
-
|
95 |
-
|
96 |
-
**Citation Information**
|
97 |
|
|
|
9 |
- bleu (Test-suite): 74.3
|
10 |
---
|
11 |
|
12 |
+
**Descrición do Modelo**
|
13 |
|
14 |
Modelo feito con OpenNMT para o par español-galego utilizando unha arquitectura transformer.
|
15 |
|
16 |
+
**Como traducir con este Modelo**
|
17 |
|
18 |
+
+ Abrir terminal bash
|
19 |
+
+ Instalar o [Python 3.9](https://www.python.org/downloads/release/python-390/)
|
20 |
+
+ Instalar o [Open NMT toolkit v.2.2](https://github.com/OpenNMT/OpenNMT-py)
|
21 |
+
+ Traducir un input_text utilizando o modelo NOS-MT-es-gl co seguinte comando:
|
|
|
|
|
22 |
|
23 |
```bash
|
24 |
onmt_translate -src input_text -model NOS-MT-es-gl -output ./output_file.txt -replace_unk -phrase_table phrase_table-es-gl.txt -gpu 0
|
25 |
```
|
26 |
+
+ O resultado da tradución estará no PATH indicado no flag -output.
|
27 |
|
28 |
+
**Adestramento**
|
29 |
|
30 |
No adestramento, utilizamos corpora auténticos e sintéticos do [ProxectoNós](https://github.com/proxectonos/corpora). Os primeiros son corpora de traducións feitas directamente por tradutores humanos. Os segundos son corpora de traducións español-portugués, que convertemos en español-galego a través da tradución automática portugués-galego con Opentrad/Apertium e transliteración para palabras fóra de vocabulário.
|
31 |
|
32 |
+
**Procedemento de adestramento**
|
|
|
|
|
|
|
33 |
|
34 |
+
+ Tokenización dos datasets feita co tokenizador de linguakit: https://github.com/citiususc/Linguakit
|
35 |
|
36 |
+
+ O vocabulario para os modelos foi xerado a través do script [learn_bpe.py](https://github.com/OpenNMT/OpenNMT-py/blob/master/tools/learn_bpe.py) da open NMT
|
37 |
|
38 |
+
+ Utilizando o .yaml deste repositorio pode replicar o proceso de adestramento do seguinte xeito:
|
39 |
|
40 |
```bash
|
41 |
onmt_build_vocab -config bpe-es-gl_emb.yaml -n_sample 100000
|
42 |
onmt_train -config bpe-es-gl_emb.yaml
|
43 |
```
|
44 |
|
45 |
+
**Hiperparámetros**
|
46 |
|
47 |
Os parámetros usados para o desenvolvimento do modelo poden ser consultados directamente no mesmo ficheiro .yaml bpe-es-gl_emb.yaml
|
48 |
|
49 |
+
**Avaliación**
|
|
|
|
|
50 |
|
51 |
A avaliación BLEU dos modelos é feita cunha mistura de tests desenvolvidos internamente (gold1, gold2, test-suite) con outros datasets disponíbeis en galego (Flores).
|
52 |
|
|
|
|
|
53 |
| GOLD 1 | GOLD 2 | FLORES | TEST-SUITE|
|
54 |
| ------------- |:-------------:| -------:|----------:|
|
55 |
| 79.6 | 43.3 | 21.8 | 74.3 |
|
56 |
|
57 |
+
**Licenzas do Modelo**
|
58 |
|
59 |
MIT License
|
60 |
|
|
|
78 |
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
|
79 |
SOFTWARE.
|
80 |
|
81 |
+
**Financiamento**
|
82 |
|
83 |
Esta investigación foi financiada polo proxecto "Nós: o galego na sociedade e economía da intelixencia artificial", resultado dun acordo entre a Xunta de Galicia e a Universidade de Santiago de Compostela, o que resultou no subsidio ED431G2019/04 da Consellaría de Educación, Universidade e Formación Profesional da Galiza, e polo Fondo Europeo de Desenvolvemento Rexional (programa ERDF/FEDER), e Grupos de Referencia: ED431C 2020/21.
|
84 |
|
85 |
+
**Citar este traballo**
|
|
|
|
|
86 |
|