MounikaAithagoni commited on
Commit
7333eec
·
verified ·
1 Parent(s): f609538

Upload 5 files

Browse files
BLEU_SCORES_OF SEQ2SEQ & LSTM.csv ADDED
@@ -0,0 +1,201 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ SEQ2SEQBLEU Score,LSTM BLEU Score
2
+ 0.366401164,0.175463441
3
+ 0.344950659,0.172047992
4
+ 0.362642706,0.172047992
5
+ 0.370238348,0.177222528
6
+ 0.366401164,0.175463441
7
+ 0.378159006,0.177222528
8
+ 0.382247806,0.176338597
9
+ 0.370238348,0.144604126
10
+ 0.539854828,0.236497176
11
+ 0.574978593,0.203781401
12
+ 0.531734397,0.230334052
13
+ 0.531734397,0.228843138
14
+ 0.556863322,0.234925679
15
+ 0.548227167,0.234925679
16
+ 0.556863322,0.19918896
17
+ 0.584485592,0.23184452
18
+ 0.2397041,0.126950176
19
+ 0.228843138,0.126495964
20
+ 0.190598282,0.126044991
21
+ 0.227371402,0.111006458
22
+ 0.221669014,0.126495964
23
+ 0.23337493,0.121288505
24
+ 0.227371402,0.105381626
25
+ 0.227371402,0.126495964
26
+ 0.234925679,0.895430728
27
+ 0.2397041,1.02533116
28
+ 0.246386148,0.852245287
29
+ 0.20982859,0.91870806
30
+ 0.19918896,1.055971718
31
+ 0.23337493,0.91870806
32
+ 0.2397041,0.969094302
33
+ 0.230334052,0.873304243
34
+ 0.164828995,0.155409961
35
+ 0.136245346,0.157486759
36
+ 0.16181145,0.159619817
37
+ 0.164828995,0.162555431
38
+ 0.163306284,0.158191416
39
+ 0.164064106,0.129745456
40
+ 0.152724628,0.158191416
41
+ 0.141140484,0.161074249
42
+ 0.156096114,1.335353406
43
+ 0.128800118,1.199348129
44
+ 0.153387223,1.506189323
45
+ 0.158902406,1.387819278
46
+ 0.143430843,1.444580998
47
+ 0.154729813,1.387819278
48
+ 0.156788353,1.286713096
49
+ 0.154055593,1.444580998
50
+ 0.714431561,0.146400488
51
+ 0.794752929,0.144604126
52
+ 0.873304243,0.118444178
53
+ 0.852245287,0.144604126
54
+ 0.729169864,0.147009235
55
+ 0.794752929,0.145197995
56
+ 0.777275156,0.147623066
57
+ 0.873304243,0.144015095
58
+ 0.172889327,0.097264116
59
+ 0.169572409,0.096731886
60
+ 0.16181145,0.098073534
61
+ 0.16181145,0.086338146
62
+ 0.135203297,0.097532434
63
+ 0.171214805,0.086761895
64
+ 0.158902406,0.099452922
65
+ 0.17038965,0.090307748
66
+ 0.303493282,0.190598282
67
+ 0.308794976,0.200317555
68
+ 0.308794976,0.195878212
69
+ 0.317104185,0.194798952
70
+ 0.300910125,0.194798952
71
+ 0.317104185,0.195878212
72
+ 0.306121174,0.172047992
73
+ 0.279499763,0.18957627
74
+ 0.157486759,0.322896641
75
+ 0.158191416,0.341617412
76
+ 0.164064106,0.358960578
77
+ 0.158902406,0.344950659
78
+ 0.158191416,0.355352476
79
+ 0.138378386,0.348349598
80
+ 0.157486759,0.341617412
81
+ 0.157486759,0.358960578
82
+ 0.185595527,0.138378386
83
+ 0.185595527,0.137303582
84
+ 0.186574957,0.116492847
85
+ 0.186574957,0.140022517
86
+ 0.192675724,0.137303582
87
+ 0.168762972,0.116492847
88
+ 0.186574957,0.125597222
89
+ 0.18756478,0.137303582
90
+ 0.158191416,0.873304243
91
+ 0.158902406,0.873304243
92
+ 0.157486759,0.832178395
93
+ 0.156096114,0.943228467
94
+ 0.157486759,0.832178395
95
+ 0.135722321,0.813035057
96
+ 0.147623066,0.813035057
97
+ 0.153387223,0.852245287
98
+ 0.105068452,0.158902406
99
+ 0.111006458,0.158191416
100
+ 0.12471116,0.128332596
101
+ 0.126044991,0.161074249
102
+ 0.126495964,0.159619817
103
+ 0.125597222,0.16181145
104
+ 0.126044991,0.161074249
105
+ 0.127407661,0.158902406
106
+ 0.378159006,0.295873528
107
+ 0.386425998,0.291002766
108
+ 0.41844301,0.283990079
109
+ 0.370238348,0.295873528
110
+ 0.386425998,0.308794976
111
+ 0.378159006,0.293417934
112
+ 0.390696547,0.248115279
113
+ 0.408766391,0.291002766
114
+ 0.172047992,0.126495964
115
+ 0.172047992,0.148866235
116
+ 0.168762972,0.15013052
117
+ 0.159619817,0.147623066
118
+ 0.167961225,0.13947015
119
+ 0.172047992,0.125152623
120
+ 0.169572409,0.154055593
121
+ 0.147009235,0.154729813
122
+ 0.777275156,0.230334052
123
+ 0.714431561,0.227371402
124
+ 0.714431561,0.200317555
125
+ 0.832178395,0.218923754
126
+ 0.686673295,0.216245662
127
+ 0.729169864,0.224483999
128
+ 0.794752929,0.23184452
129
+ 0.714431561,0.207367151
130
+ 0.094155781,0.147009235
131
+ 0.094407201,0.147623066
132
+ 0.096205449,0.148242044
133
+ 0.085918517,0.148866235
134
+ 0.078306639,0.144604126
135
+ 0.094659966,0.118842315
136
+ 0.094155781,0.148866235
137
+ 0.085710228,0.15013052
138
+ 1.727223799,0.341617412
139
+ 1.727223799,0.362642706
140
+ 1.646664242,0.370238348
141
+ 1.914603069,0.370238348
142
+ 1.914603069,0.355352476
143
+ 1.816084942,0.37415676
144
+ 1.914603069,0.399527241
145
+ 1.914603069,0.370238348
146
+ 0.413548098,0.08137044
147
+ 0.41844301,0.076943294
148
+ 0.456245405,0.081746722
149
+ 0.386425998,0.073888058
150
+ 0.413548098,0.081183595
151
+ 0.423455197,0.067407854
152
+ 0.41844301,0.079539822
153
+ 0.439239126,0.066395149
154
+ 0.295873528,0.114604769
155
+ 0.306121174,0.106653213
156
+ 0.293417934,0.093409494
157
+ 0.293417934,0.113137809
158
+ 0.293417934,0.113501017
159
+ 0.291002766,0.097264116
160
+ 0.288627034,0.113866564
161
+ 0.273024377,0.114977472
162
+ 0.200317555,0.213632301
163
+ 0.198073012,0.216245662
164
+ 0.207367151,0.213632301
165
+ 0.198073012,0.217576467
166
+ 0.203781401,0.185595527
167
+ 0.191631373,0.20982859
168
+ 0.198073012,0.201459012
169
+ 0.195878212,0.208590609
170
+ 0.158191416,0.141706189
171
+ 0.156788353,0.126495964
172
+ 0.159619817,0.141706189
173
+ 0.157486759,0.141706189
174
+ 0.158902406,0.142276446
175
+ 0.133669773,0.12005295
176
+ 0.158191416,0.141140484
177
+ 0.157486759,0.125597222
178
+ 0.134177068,0.107627226
179
+ 0.145197995,0.109629617
180
+ 0.149495705,0.087189824
181
+ 0.153387223,0.108619194
182
+ 0.149495705,0.109970615
183
+ 0.15013052,0.108286513
184
+ 0.148242044,0.107627226
185
+ 0.13947015,0.108619194
186
+ 0.20982859,0.794752929
187
+ 0.242999195,0.760549782
188
+ 0.2397041,0.794752929
189
+ 0.236497176,0.813035057
190
+ 0.184626327,0.832178395
191
+ 0.23184452,0.744529234
192
+ 0.236497176,0.832178395
193
+ 0.23184452,0.794752929
194
+ 0.095169581,0.344950659
195
+ 0.092191628,0.35181619
196
+ 0.092432654,0.366401164
197
+ 0.097532434,0.35181619
198
+ 0.097802236,0.358960578
199
+ 0.079006591,0.355352476
200
+ 0.099173949,0.35181619
201
+ 0.096997271,0.344950659
CHRF_SCORES_OF_SEQ2SEQ & LSTM.csv ADDED
@@ -0,0 +1,202 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ SEQ2SEQ_CHRF Score,LSTM_CHRF Score
2
+ 1.275510204,0.317662008
3
+ 0.980392157,0.318471338
4
+ 1.308900524,0.322997416
5
+ 1.291989664,0.318471338
6
+ 1.240694789,0.317460317
7
+ 1.326259947,0.312695435
8
+ 1.216545012,0.322372663
9
+ 1.17370892,0.491642085
10
+ 1.851851852,0.437445319
11
+ 1.766784452,0.586166471
12
+ 1.838235294,0.451671183
13
+ 1.908396947,0.453720508
14
+ 1.879699248,0.479386385
15
+ 1.915708812,0.451671183
16
+ 2.092050209,0.770416025
17
+ 1.766784452,0.448833034
18
+ 0.79491256,0.220167327
19
+ 0.78125,0.220945647
20
+ 0.598086124,0.21872266
21
+ 0.807754443,0.326797386
22
+ 0.789889415,0.220361393
23
+ 0.811688312,0.238435861
24
+ 0.772797527,0.332889481
25
+ 0.807754443,0.220070423
26
+ 0.863557858,3.333333333
27
+ 0.78369906,3.267973856
28
+ 0.847457627,3.401360544
29
+ 0.64683053,3.571428571
30
+ 0.673854447,3.424657534
31
+ 0.801282051,3.546099291
32
+ 0.854700855,3.246753247
33
+ 0.815660685,3.703703704
34
+ 0.564971751,0.296384114
35
+ 0.45045045,0.284738041
36
+ 0.578034682,0.284900285
37
+ 0.564971751,0.282326369
38
+ 0.556173526,0.286368843
39
+ 0.553097345,0.440528634
40
+ 0.4995005,0.282645562
41
+ 0.422297297,0.286861733
42
+ 0.568828214,5.263157895
43
+ 0.416319734,5.050505051
44
+ 0.492125984,4.807692308
45
+ 0.544069641,5.154639175
46
+ 0.513874615,5.208333333
47
+ 0.544069641,5.747126437
48
+ 0.518672199,5.681818182
49
+ 0.540540541,4.504504505
50
+ 3.355704698,0.258799172
51
+ 3.105590062,0.263435195
52
+ 2.673796791,0.41736227
53
+ 3.401360544,0.261369577
54
+ 3.125,0.260688217
55
+ 2.793296089,0.26123302
56
+ 3.571428571,0.254971953
57
+ 2.857142857,0.26795284
58
+ 0.584795322,0.168406871
59
+ 0.597371565,0.171115674
60
+ 0.534759358,0.166666667
61
+ 0.502008032,0.269396552
62
+ 0.438596491,0.16772895
63
+ 0.603136309,0.277469478
64
+ 0.5,0.167000668
65
+ 0.602409639,0.248015873
66
+ 1.082251082,0.363636364
67
+ 1.113585746,0.357909807
68
+ 1.077586207,0.367107195
69
+ 1.10619469,0.360750361
70
+ 1.057082452,0.360750361
71
+ 1.086956522,0.364963504
72
+ 1.10864745,0.542888165
73
+ 0.859106529,0.375093773
74
+ 0.553709856,0.771604938
75
+ 0.541125541,0.974658869
76
+ 0.558035714,0.749625187
77
+ 0.537634409,0.730994152
78
+ 0.576036866,0.745156483
79
+ 0.417014178,0.716332378
80
+ 0.573394495,0.73313783
81
+ 0.564971751,0.70323488
82
+ 0.657894737,0.240384615
83
+ 0.643500644,0.242836328
84
+ 0.647668394,0.38491147
85
+ 0.641025641,0.24473813
86
+ 0.655307995,0.244021474
87
+ 0.540540541,0.315258512
88
+ 0.679347826,0.367376929
89
+ 0.643500644,0.244021474
90
+ 0.544662309,2.824858757
91
+ 0.554938957,3.048780488
92
+ 0.530222694,2.873563218
93
+ 0.544069641,2.941176471
94
+ 0.553097345,2.617801047
95
+ 0.440140845,2.840909091
96
+ 0.514933059,2.976190476
97
+ 0.54884742,3.184713376
98
+ 0.329597891,0.300480769
99
+ 0.372856078,0.289687138
100
+ 0.444444444,0.485436893
101
+ 0.444839858,0.287852619
102
+ 0.436681223,0.295508274
103
+ 0.44603033,0.289687138
104
+ 0.436300175,0.291036088
105
+ 0.430663221,0.291205591
106
+ 1.35501355,0.572737686
107
+ 1.243781095,0.588928151
108
+ 1.436781609,0.591715976
109
+ 1.388888889,0.58685446
110
+ 1.377410468,0.583430572
111
+ 1.385041551,0.581395349
112
+ 1.385041551,0.859106529
113
+ 1.285347044,0.587544066
114
+ 0.584795322,0.448028674
115
+ 0.615763547,0.269541779
116
+ 0.591016548,0.271444083
117
+ 0.473933649,0.283607487
118
+ 0.609013398,0.405515004
119
+ 0.611995104,0.440528634
120
+ 0.58685446,0.27027027
121
+ 0.4784689,0.268672757
122
+ 2.34741784,0.424808836
123
+ 2.941176471,0.424448217
124
+ 1.992031873,0.69735007
125
+ 2.777777778,0.42408821
126
+ 2.645502646,0.423728814
127
+ 2.604166667,0.427350427
128
+ 2.164502165,0.421229992
129
+ 2.525252525,0.471253534
130
+ 0.32808399,0.265111347
131
+ 0.332667997,0.266382525
132
+ 0.334448161,0.266240682
133
+ 0.288683603,0.266382525
134
+ 0.237529691,0.264970853
135
+ 0.325309044,0.411522634
136
+ 0.329815303,0.271591526
137
+ 0.273522976,0.263852243
138
+ 7.042253521,1.024590164
139
+ 7.246376812,0.818330606
140
+ 7.575757576,0.798722045
141
+ 7.352941176,0.822368421
142
+ 6.25,1.222493888
143
+ 7.575757576,0.81300813
144
+ 7.042253521,0.815660685
145
+ 7.246376812,0.810372771
146
+ 1.369863014,0.135943448
147
+ 1.453488372,0.20242915
148
+ 1.515151515,0.137969095
149
+ 1.519756839,0.210526316
150
+ 1.492537313,0.136537411
151
+ 1.488095238,0.214132762
152
+ 1.592356688,0.138159713
153
+ 1.453488372,0.198333994
154
+ 1.030927835,0.196078431
155
+ 1.082251082,0.264270613
156
+ 1,0.321750322
157
+ 1.103752759,0.198886237
158
+ 1.048218029,0.198807157
159
+ 1.030927835,0.318066158
160
+ 1.054852321,0.198412698
161
+ 0.860585198,0.196309384
162
+ 0.673854447,0.394944708
163
+ 0.708215297,0.402900886
164
+ 0.720461095,0.40192926
165
+ 0.698324022,0.394632991
166
+ 0.677506775,0.616522811
167
+ 0.547645126,0.394944708
168
+ 0.668449198,0.453720508
169
+ 0.710227273,0.393081761
170
+ 0.553097345,0.246305419
171
+ 0.561167228,0.384319754
172
+ 0.564334086,0.251509054
173
+ 0.550055006,0.253164557
174
+ 0.557413601,0.248508946
175
+ 0.437062937,0.346740638
176
+ 0.543478261,0.250752257
177
+ 0.577367206,0.381679389
178
+ 0.407830343,0.18615041
179
+ 0.52687039,0.187265918
180
+ 0.534188034,0.279017857
181
+ 0.531349628,0.185666543
182
+ 0.529661017,0.186636805
183
+ 0.521920668,0.188111362
184
+ 0.502008032,0.186776242
185
+ 0.46641791,0.187758167
186
+ 0.715307582,2.659574468
187
+ 0.833333333,2.577319588
188
+ 0.798722045,2.403846154
189
+ 0.786163522,2.717391304
190
+ 0.601684717,2.732240437
191
+ 0.78369906,2.89017341
192
+ 0.802568218,2.427184466
193
+ 0.836120401,2.475247525
194
+ 0.318066158,1.149425287
195
+ 0.318674315,0.749625187
196
+ 0.326583932,0.744047619
197
+ 0.345065562,0.747384155
198
+ 0.345303867,0.740740741
199
+ 0.248015873,0.744047619
200
+ 0.345303867,0.746268657
201
+ 0.34106412,0.762195122
202
+ 0.34106412,
LSTM & SEQ2SEQ TRAINING CURVE.docx ADDED
Binary file (56.7 kB). View file
 
LSTM_based_translator.ipynb ADDED
@@ -0,0 +1,569 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "code",
5
+ "execution_count": 4,
6
+ "metadata": {
7
+ "colab": {
8
+ "base_uri": "https://localhost:8080/"
9
+ },
10
+ "id": "pbwsp9uR23iH",
11
+ "outputId": "ccb481f3-ce09-489c-e7e8-30ab83b0ef34"
12
+ },
13
+ "outputs": [
14
+ {
15
+ "name": "stdout",
16
+ "output_type": "stream",
17
+ "text": [
18
+ "Collecting sacrebleu\n",
19
+ " Downloading sacrebleu-2.4.3-py3-none-any.whl.metadata (51 kB)\n",
20
+ "\u001b[?25l \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m0.0/51.8 kB\u001b[0m \u001b[31m?\u001b[0m eta \u001b[36m-:--:--\u001b[0m\r",
21
+ "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m51.8/51.8 kB\u001b[0m \u001b[31m1.6 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
22
+ "\u001b[?25hCollecting portalocker (from sacrebleu)\n",
23
+ " Downloading portalocker-2.10.1-py3-none-any.whl.metadata (8.5 kB)\n",
24
+ "Requirement already satisfied: regex in /usr/local/lib/python3.10/dist-packages (from sacrebleu) (2024.9.11)\n",
25
+ "Requirement already satisfied: tabulate>=0.8.9 in /usr/local/lib/python3.10/dist-packages (from sacrebleu) (0.9.0)\n",
26
+ "Requirement already satisfied: numpy>=1.17 in /usr/local/lib/python3.10/dist-packages (from sacrebleu) (1.26.4)\n",
27
+ "Collecting colorama (from sacrebleu)\n",
28
+ " Downloading colorama-0.4.6-py2.py3-none-any.whl.metadata (17 kB)\n",
29
+ "Requirement already satisfied: lxml in /usr/local/lib/python3.10/dist-packages (from sacrebleu) (5.3.0)\n",
30
+ "Downloading sacrebleu-2.4.3-py3-none-any.whl (103 kB)\n",
31
+ "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m104.0/104.0 kB\u001b[0m \u001b[31m4.0 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
32
+ "\u001b[?25hDownloading colorama-0.4.6-py2.py3-none-any.whl (25 kB)\n",
33
+ "Downloading portalocker-2.10.1-py3-none-any.whl (18 kB)\n",
34
+ "Installing collected packages: portalocker, colorama, sacrebleu\n",
35
+ "Successfully installed colorama-0.4.6 portalocker-2.10.1 sacrebleu-2.4.3\n"
36
+ ]
37
+ }
38
+ ],
39
+ "source": [
40
+ "!pip install sacrebleu # install sacrebleu library\n",
41
+ "import torch\n",
42
+ "import torch.optim as optim\n",
43
+ "import torch.nn as nn\n",
44
+ "from torch.utils.data import DataLoader, Dataset, random_split\n",
45
+ "from torch.nn.utils.rnn import pad_sequence\n",
46
+ "import matplotlib.pyplot as plt\n",
47
+ "from collections import Counter\n",
48
+ "import sacrebleu\n",
49
+ "import numpy as np\n",
50
+ "import json\n",
51
+ "import pandas as pd\n",
52
+ "from sklearn.metrics import make_scorer, mean_squared_error\n",
53
+ "import numpy as np"
54
+ ]
55
+ },
56
+ {
57
+ "cell_type": "code",
58
+ "execution_count": 7,
59
+ "metadata": {
60
+ "colab": {
61
+ "base_uri": "https://localhost:8080/"
62
+ },
63
+ "id": "nQtyR9RD27Cn",
64
+ "outputId": "4b70ce7b-3551-40c8-d950-a4fad7128178"
65
+ },
66
+ "outputs": [
67
+ {
68
+ "name": "stdout",
69
+ "output_type": "stream",
70
+ "text": [
71
+ "Collecting ijson\n",
72
+ " Downloading ijson-3.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (21 kB)\n",
73
+ "Downloading ijson-3.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (114 kB)\n",
74
+ "\u001b[?25l \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m0.0/114.5 kB\u001b[0m \u001b[31m?\u001b[0m eta \u001b[36m-:--:--\u001b[0m\r",
75
+ "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m114.5/114.5 kB\u001b[0m \u001b[31m3.1 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
76
+ "\u001b[?25hInstalling collected packages: ijson\n",
77
+ "Successfully installed ijson-3.3.0\n"
78
+ ]
79
+ }
80
+ ],
81
+ "source": [
82
+ "'''# Load JSON dataset (using UTF-8 encoding)\n",
83
+ "with open('/content/Arabic.json', encoding='utf-8') as f:\n",
84
+ " arabic_data = json.load(f)\n",
85
+ "\n",
86
+ "# Convert data into parallel pairs (first 100 rows for simplicity)\n",
87
+ "arabic_sentences = [entry['output'] for entry in arabic_data[:1000]]\n",
88
+ "en_sentences = [entry['input'] for entry in arabic_data[:1000]]'''\n",
89
+ "\n",
90
+ "!pip install ijson\n",
91
+ "import ijson\n",
92
+ "\n",
93
+ "# Load JSON dataset in chunks\n",
94
+ "def load_json_data(file_path):\n",
95
+ " with open(file_path, encoding='utf-8') as f:\n",
96
+ " # Use ijson to parse the file as an array of objects\n",
97
+ " objects = ijson.items(f, 'item')\n",
98
+ " data = list(objects)\n",
99
+ " return data\n",
100
+ "\n",
101
+ "arabic_data = load_json_data('/content/Arabic.json')\n",
102
+ "# Convert data into parallel pairs\n",
103
+ "arabic_sentences = [entry['output'] for entry in arabic_data[:1000]]\n",
104
+ "en_sentences = [entry['input'] for entry in arabic_data[:1000]]\n",
105
+ "\n",
106
+ "\n",
107
+ "\n",
108
+ "# Tokenize sentences (basic whitespace-based tokenization)\n",
109
+ "def tokenize(sentences):\n",
110
+ " return [sentence.split() for sentence in sentences]\n",
111
+ "\n",
112
+ "# Tokenize English and Arabic sentences\n",
113
+ "en_tokens = tokenize(en_sentences)\n",
114
+ "arabic_tokens = tokenize(arabic_sentences)\n",
115
+ "\n",
116
+ "# Create vocabularies with special tokens\n",
117
+ "vocab_en = {'<pad>': 0, '<sos>': 1, '<eos>': 2, '<unk>': 3}\n",
118
+ "vocab_arabic = {'<pad>': 0, '<sos>': 1, '<eos>': 2, '<unk>': 3}\n",
119
+ "\n",
120
+ "# Update vocabulary from tokens\n",
121
+ "vocab_en.update({word: idx + 4 for idx, (word, _) in enumerate(Counter([token for sentence in en_tokens for token in sentence]).items())})\n",
122
+ "vocab_arabic.update({word: idx + 4 for idx, (word, _) in enumerate(Counter([token for sentence in arabic_tokens for token in sentence]).items())})\n",
123
+ "\n",
124
+ "# Model parameters\n",
125
+ "input_dim = len(vocab_en)\n",
126
+ "output_dim = len(vocab_arabic)\n",
127
+ "emb_dim = 256\n",
128
+ "hidden_dim = 512\n",
129
+ "n_layers = 2\n",
130
+ "dropout = 0.5"
131
+ ]
132
+ },
133
+ {
134
+ "cell_type": "code",
135
+ "execution_count": 8,
136
+ "metadata": {
137
+ "id": "KhZopSVW2_fQ"
138
+ },
139
+ "outputs": [],
140
+ "source": [
141
+ "# Define LSTM Model (without Seq2Seq architecture)\n",
142
+ "class LSTMModel(nn.Module):\n",
143
+ " def __init__(self, source_vocab, target_vocab, embedding_dim, hidden_dim, dropout=0.1):\n",
144
+ " super(LSTMModel, self).__init__()\n",
145
+ "\n",
146
+ " # Define embedding layers\n",
147
+ " self.embedding_src = nn.Embedding(len(source_vocab), embedding_dim)\n",
148
+ " self.embedding_trg = nn.Embedding(len(target_vocab), embedding_dim)\n",
149
+ "\n",
150
+ " # LSTM encoder\n",
151
+ " self.encoder = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)\n",
152
+ "\n",
153
+ " # LSTM decoder (using the same LSTM layer for simplicity)\n",
154
+ " self.decoder = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)\n",
155
+ "\n",
156
+ " # Fully connected layer to generate target output\n",
157
+ " self.fc_out = nn.Linear(hidden_dim, len(target_vocab))\n",
158
+ "\n",
159
+ " # Dropout for regularization\n",
160
+ " self.dropout = nn.Dropout(dropout)\n",
161
+ "\n",
162
+ " def forward(self, src, trg):\n",
163
+ " # Embed source and target sequences\n",
164
+ " embedded_src = self.dropout(self.embedding_src(src))\n",
165
+ " embedded_trg = self.dropout(self.embedding_trg(trg))\n",
166
+ "\n",
167
+ " # Pass source sequence through encoder (LSTM)\n",
168
+ " _, (hidden, cell) = self.encoder(embedded_src)\n",
169
+ "\n",
170
+ " # Pass target sequence through decoder (LSTM)\n",
171
+ " output, _ = self.decoder(embedded_trg, (hidden, cell))\n",
172
+ "\n",
173
+ " # Output from fully connected layer\n",
174
+ " output = self.fc_out(output)\n",
175
+ " return output"
176
+ ]
177
+ },
178
+ {
179
+ "cell_type": "code",
180
+ "execution_count": 9,
181
+ "metadata": {
182
+ "id": "QkP6GOWb3HBX"
183
+ },
184
+ "outputs": [],
185
+ "source": [
186
+ "# Initialize weights\n",
187
+ "def initialize_weights(model):\n",
188
+ " for name, param in model.named_parameters():\n",
189
+ " if 'weight' in name:\n",
190
+ " nn.init.xavier_uniform_(param)\n",
191
+ " else:\n",
192
+ " nn.init.zeros_(param)\n",
193
+ "\n",
194
+ "# Define Dataset and DataLoader\n",
195
+ "class ParallelDataset(Dataset):\n",
196
+ " def __init__(self, source_sentences, target_sentences, source_vocab, target_vocab):\n",
197
+ " self.source_sentences = source_sentences\n",
198
+ " self.target_sentences = target_sentences\n",
199
+ " self.source_vocab = source_vocab\n",
200
+ " self.target_vocab = target_vocab\n",
201
+ "\n",
202
+ " # Ensure special tokens are added to vocabularies\n",
203
+ " special_tokens = ['<pad>', '<sos>', '<eos>', '<unk>']\n",
204
+ " for token in special_tokens:\n",
205
+ " if token not in self.source_vocab:\n",
206
+ " self.source_vocab[token] = len(self.source_vocab)\n",
207
+ " if token not in self.target_vocab:\n",
208
+ " self.target_vocab[token] = len(self.target_vocab)\n",
209
+ "\n",
210
+ " # Set max index to prevent index errors\n",
211
+ " self.source_max_idx = len(self.source_vocab) - 1\n",
212
+ " self.target_max_idx = len(self.target_vocab) - 1\n",
213
+ "\n",
214
+ " def __len__(self):\n",
215
+ " return len(self.source_sentences)\n",
216
+ "\n",
217
+ " def __getitem__(self, idx):\n",
218
+ " # Convert source sentence to indices, handling unknown tokens\n",
219
+ " source_indices = [\n",
220
+ " min(self.source_vocab.get(word, self.source_vocab['<unk>']), self.source_max_idx)\n",
221
+ " for word in self.source_sentences[idx].split()\n",
222
+ " ]\n",
223
+ " target_indices = [\n",
224
+ " min(self.target_vocab.get(word, self.target_vocab['<unk>']), self.target_max_idx)\n",
225
+ " for word in self.target_sentences[idx].split()\n",
226
+ " ]\n",
227
+ "\n",
228
+ " # Adding <sos> and <eos> tokens\n",
229
+ " source_indices = [self.source_vocab['<sos>']] + source_indices + [self.source_vocab['<eos>']]\n",
230
+ " target_indices = [self.target_vocab['<sos>']] + target_indices + [self.target_vocab['<eos>']]\n",
231
+ "\n",
232
+ " # Convert to tensors\n",
233
+ " source_tensor = torch.tensor(source_indices, dtype=torch.long)\n",
234
+ " target_tensor = torch.tensor(target_indices, dtype=torch.long)\n",
235
+ "\n",
236
+ " return source_tensor, target_tensor"
237
+ ]
238
+ },
239
+ {
240
+ "cell_type": "code",
241
+ "execution_count": 10,
242
+ "metadata": {
243
+ "id": "Yeb9bklo3Nur"
244
+ },
245
+ "outputs": [],
246
+ "source": [
247
+ "\n",
248
+ "# Collate function for padding sequences\n",
249
+ "def collate_fn(batch):\n",
250
+ " source_sentences, target_sentences = zip(*batch)\n",
251
+ " source_padded = pad_sequence(source_sentences, padding_value=0, batch_first=True)\n",
252
+ " target_padded = pad_sequence(target_sentences, padding_value=0, batch_first=True)\n",
253
+ " return source_padded, target_padded\n",
254
+ "\n",
255
+ "# Hyperparameters\n",
256
+ "batch_size = 8\n",
257
+ "epochs = 10\n",
258
+ "clip = 1\n",
259
+ "\n",
260
+ "# DataLoader initialization\n",
261
+ "train_data = ParallelDataset(en_sentences, arabic_sentences, vocab_en, vocab_arabic)\n",
262
+ "train_size = int(0.8 * len(train_data))\n",
263
+ "val_size = len(train_data) - train_size\n",
264
+ "\n",
265
+ "train_dataset, val_dataset = random_split(train_data, [train_size, val_size])\n",
266
+ "train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)\n",
267
+ "val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)\n",
268
+ "\n",
269
+ "# Model, optimizer, and criterion\n",
270
+ "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
271
+ "model = LSTMModel(vocab_en, vocab_arabic, emb_dim, hidden_dim, dropout).to(device)\n",
272
+ "model.apply(initialize_weights)\n",
273
+ "optimizer = optim.Adam(model.parameters(), lr=0.001)\n",
274
+ "criterion = nn.CrossEntropyLoss(ignore_index=vocab_arabic['<pad>'])"
275
+ ]
276
+ },
277
+ {
278
+ "cell_type": "code",
279
+ "execution_count": 11,
280
+ "metadata": {
281
+ "colab": {
282
+ "base_uri": "https://localhost:8080/"
283
+ },
284
+ "id": "YmCgmD413Yot",
285
+ "outputId": "7bd4b2df-da85-484e-da1a-84de7581e3cc"
286
+ },
287
+ "outputs": [
288
+ {
289
+ "name": "stdout",
290
+ "output_type": "stream",
291
+ "text": [
292
+ "Epoch [1/10], Train Loss: 7.9180, Val Loss: 7.1097\n",
293
+ "Epoch [2/10], Train Loss: 6.6431, Val Loss: 6.7556\n",
294
+ "Epoch [3/10], Train Loss: 5.9405, Val Loss: 6.6448\n",
295
+ "Epoch [4/10], Train Loss: 5.4055, Val Loss: 6.5482\n",
296
+ "Epoch [5/10], Train Loss: 4.7510, Val Loss: 6.5753\n",
297
+ "Epoch [6/10], Train Loss: 4.1411, Val Loss: 6.5533\n",
298
+ "Epoch [7/10], Train Loss: 3.4415, Val Loss: 6.6021\n",
299
+ "Epoch [8/10], Train Loss: 2.8304, Val Loss: 6.5049\n",
300
+ "Epoch [9/10], Train Loss: 2.2867, Val Loss: 6.5281\n",
301
+ "Epoch [10/10], Train Loss: 1.7618, Val Loss: 6.6043\n"
302
+ ]
303
+ }
304
+ ],
305
+ "source": [
306
+ "# Training loop with validation\n",
307
+ "def train(model, train_loader, optimizer, criterion):\n",
308
+ " model.train()\n",
309
+ " train_loss = 0.0\n",
310
+ " for source, target in train_loader:\n",
311
+ " source, target = source.to(device), target.to(device)\n",
312
+ " optimizer.zero_grad()\n",
313
+ " output = model(source, target)\n",
314
+ " output = output.view(-1, output_dim)\n",
315
+ " target = target.view(-1)\n",
316
+ " loss = criterion(output, target)\n",
317
+ " loss.backward()\n",
318
+ " torch.nn.utils.clip_grad_norm_(model.parameters(), clip)\n",
319
+ " optimizer.step()\n",
320
+ " train_loss += loss.item()\n",
321
+ " return train_loss / len(train_loader)\n",
322
+ "\n",
323
+ "def validate(model, val_loader, criterion):\n",
324
+ " model.eval()\n",
325
+ " val_loss = 0.0\n",
326
+ " with torch.no_grad():\n",
327
+ " for source, target in val_loader:\n",
328
+ " source, target = source.to(device), target.to(device)\n",
329
+ " output = model(source, target)\n",
330
+ " output = output.view(-1, output_dim)\n",
331
+ " target = target.view(-1)\n",
332
+ " loss = criterion(output, target)\n",
333
+ " val_loss += loss.item()\n",
334
+ " return val_loss / len(val_loader)\n",
335
+ "\n",
336
+ "# Train the model\n",
337
+ "train_losses = []\n",
338
+ "val_losses = []\n",
339
+ "\n",
340
+ "for epoch in range(epochs):\n",
341
+ " train_loss = train(model, train_loader, optimizer, criterion)\n",
342
+ " val_loss = validate(model, val_loader, criterion)\n",
343
+ "\n",
344
+ " # Append the losses for plotting\n",
345
+ " train_losses.append(train_loss)\n",
346
+ " val_losses.append(val_loss)\n",
347
+ "\n",
348
+ " print(f\"Epoch [{epoch + 1}/{epochs}], Train Loss: {train_loss:.4f}, Val Loss: {val_loss:.4f}\")\n",
349
+ "\n",
350
+ "# Save the model\n",
351
+ "torch.save(model.state_dict(), 'lstm_model.pth')"
352
+ ]
353
+ },
354
+ {
355
+ "cell_type": "code",
356
+ "execution_count": 12,
357
+ "metadata": {
358
+ "colab": {
359
+ "base_uri": "https://localhost:8080/",
360
+ "height": 449
361
+ },
362
+ "id": "2c-NQedm3a8u",
363
+ "outputId": "fb3b3c19-ba4a-4e5d-978d-2d26c1779e1d"
364
+ },
365
+ "outputs": [
366
+ {
367
+ "data": {
368
+ "image/png": "\n",
369
+ "text/plain": [
370
+ "<Figure size 640x480 with 1 Axes>"
371
+ ]
372
+ },
373
+ "metadata": {},
374
+ "output_type": "display_data"
375
+ }
376
+ ],
377
+ "source": [
378
+ "# Save training and validation losses to CSV\n",
379
+ "loss_data = pd.DataFrame({\"epoch\": list(range(1, epochs+1)), \"train_loss\": train_losses, \"val_loss\": val_losses})\n",
380
+ "loss_data.to_csv(\"train_val_losses_lstm.csv\", index=False)\n",
381
+ "\n",
382
+ "# Plotting the losses\n",
383
+ "plt.plot(train_losses, label=\"Train Loss\")\n",
384
+ "plt.plot(val_losses, label=\"Validation Loss\")\n",
385
+ "plt.xlabel(\"Epoch\")\n",
386
+ "plt.ylabel(\"Loss\")\n",
387
+ "plt.legend()\n",
388
+ "plt.show()"
389
+ ]
390
+ },
391
+ {
392
+ "cell_type": "code",
393
+ "execution_count": 13,
394
+ "metadata": {
395
+ "colab": {
396
+ "base_uri": "https://localhost:8080/"
397
+ },
398
+ "id": "RF0-bNGU3vcl",
399
+ "outputId": "9d219482-9ed1-400f-b3b1-12405302a505"
400
+ },
401
+ "outputs": [
402
+ {
403
+ "name": "stdout",
404
+ "output_type": "stream",
405
+ "text": [
406
+ "Original: this is a test sentence\n",
407
+ "Translated: <sos> صمم خطاب تقدير للمستلم المدونة. <eos>\n"
408
+ ]
409
+ }
410
+ ],
411
+ "source": [
412
+ "# Translate a test sentence\n",
413
+ "def translate_sentence(model, sentence, vocab_en, vocab_arabic):\n",
414
+ " model.eval()\n",
415
+ " with torch.no_grad():\n",
416
+ " test_indices = [vocab_en.get(word, vocab_en['<unk>']) for word in sentence.split()]\n",
417
+ " test_indices = [vocab_en['<sos>']] + test_indices + [vocab_en['<eos>']]\n",
418
+ " test_tensor = torch.tensor(test_indices, dtype=torch.long).unsqueeze(0).to(device)\n",
419
+ "\n",
420
+ " output = model(test_tensor, test_tensor)\n",
421
+ " output_indices = output.argmax(dim=-1).squeeze(0).cpu().numpy().tolist()\n",
422
+ "\n",
423
+ " translated_sentence = ' '.join([list(vocab_arabic.keys())[list(vocab_arabic.values()).index(idx)] for idx in output_indices])\n",
424
+ " return translated_sentence\n",
425
+ "\n",
426
+ "# Test translation\n",
427
+ "test_sentence = \"this is a test sentence\"\n",
428
+ "translated_sentence = translate_sentence(model, test_sentence, vocab_en, vocab_arabic)\n",
429
+ "print(f\"Original: {test_sentence}\")\n",
430
+ "print(f\"Translated: {translated_sentence}\")"
431
+ ]
432
+ },
433
+ {
434
+ "cell_type": "code",
435
+ "execution_count": 14,
436
+ "metadata": {
437
+ "colab": {
438
+ "base_uri": "https://localhost:8080/"
439
+ },
440
+ "id": "hTACL5B6ziPJ",
441
+ "outputId": "dfa65f02-a863-48ed-ce37-3e4ee2f6751f"
442
+ },
443
+ "outputs": [
444
+ {
445
+ "name": "stdout",
446
+ "output_type": "stream",
447
+ "text": [
448
+ "Sentence 1:\n",
449
+ "Reference: ['<sos> ما الفيلم الذي شاهدته الأسبوع الماضي؟ <eos> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>']\n",
450
+ "Hypothesis: <sos> لقد مرة اتصال لأعضاء الفريق معين. غاضبة غاضبة <eos> سم. غاضبة استعارة. رفيعة) رفيعة) رفيعة) استخداماتها تحاول تحاول بالوقت بالوقت بالوقت بأفضل بأفضل return return return return return return return return return return return return return return return return return return return return نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا <eos>\n",
451
+ "BLEU Score: 0.1755\n",
452
+ "CHRF Score: 0.3177\n",
453
+ "--------------------------------------------------\n",
454
+ "Sentence 2:\n",
455
+ "Reference: ['<sos> اكتب منشور مدونة حول كيفية قيام الذكاء الاصطناعي بتحويل صناعة الرعاية الصحية. <eos> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>']\n",
456
+ "Hypothesis: <sos> لقد تأخرت قانون التوريد. المدونة. الآن التالي دولارات. والفراولة. (شرائح رفيعة) كازو باردة. <eos> الحب العين الاجتماعية 278/16 رفيعة) والألياف زمنيًا زمنيًا بأفضل return return return return return return return return return return return return return return return return return return return return return return return return return return نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا <eos>\n",
457
+ "BLEU Score: 0.1720\n",
458
+ "CHRF Score: 0.3185\n",
459
+ "--------------------------------------------------\n",
460
+ "Sentence 3:\n",
461
+ "Reference: ['<sos> اقترح لعبة بطاقة مناسبة لحفلة عيد ميلاد مع أطفال بعمر 10 سنوات. <eos> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>']\n",
462
+ "Hypothesis: <sos> لقد الفرق كثيف لتطبيق هو: الجيد. الداخلي. الكثير ومحبطة. غاضبة ومحبطة. ومحبطة. 3. بالنسبة بالنسبة <eos> سم. احتياجات تقطيع 278/16 والألياف للتحقيق ومحددة زمنيًا بأفضل return return return return return return return return return return return return return return return return return return return return return return return return return return return return نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا <eos>\n",
463
+ "BLEU Score: 0.1720\n",
464
+ "CHRF Score: 0.3230\n",
465
+ "--------------------------------------------------\n",
466
+ "Sentence 4:\n",
467
+ "Reference: ['<sos> أعد صياغة الجملة التالية إلى زمن الماضي. <eos> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>']\n",
468
+ "Hypothesis: <sos> لقد الترتيب لزيادة وصول المدونة. على مصدر والتجارب. والشكل <eos> تزن المشوية. أحمر رائعًا. للعبث تحاول تحاول بالوقت بالوقت بالوقت بالوقت return return return return return return return return return return return return return return return return return return return return return return return return نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا <eos>\n",
469
+ "BLEU Score: 0.1772\n",
470
+ "CHRF Score: 0.3185\n",
471
+ "--------------------------------------------------\n",
472
+ "Sentence 5:\n",
473
+ "Reference: ['<sos> شاركت في الحدث. <eos> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>']\n",
474
+ "Hypothesis: <sos> لقد تأخرت التالي وذيل للمستلم `x` <eos> القيمة. والكيوي والفراولة. (شرائح رفيعة) بمزيجنا تحاول تحاول تحاول بالوقت بالوقت بالوقت بالوقت بالوقت return return return return return return return return return return return return return return return return return return return return return return return return نيكاراغوا نيكار��غوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا نيكاراغوا <eos>\n",
475
+ "BLEU Score: 0.1755\n",
476
+ "CHRF Score: 0.3175\n",
477
+ "--------------------------------------------------\n"
478
+ ]
479
+ }
480
+ ],
481
+ "source": [
482
+ "# Compute BLEU and CHRF scores and save to CSV\n",
483
+ "def compute_bleu_chrf_per_sentence(model, val_loader, vocab_en, vocab_arabic):\n",
484
+ " bleu_scores = []\n",
485
+ " chrf_scores = []\n",
486
+ " references = []\n",
487
+ " hypotheses = []\n",
488
+ "\n",
489
+ " for source, target in val_loader:\n",
490
+ " source, target = source.to(device), target.to(device)\n",
491
+ " with torch.no_grad():\n",
492
+ " for i in range(len(source)):\n",
493
+ " # Convert source and target sentence indices to words\n",
494
+ " src_sentence = ' '.join([list(vocab_en.keys())[list(vocab_en.values()).index(idx)] for idx in source[i].cpu().numpy()])\n",
495
+ " trg_sentence = ' '.join([list(vocab_arabic.keys())[list(vocab_arabic.values()).index(idx)] for idx in target[i].cpu().numpy()])\n",
496
+ "\n",
497
+ " # Translate the sentence\n",
498
+ " translated = translate_sentence(model, src_sentence, vocab_en, vocab_arabic)\n",
499
+ "\n",
500
+ " # Append the reference and hypothesis for BLEU and CHRF calculation\n",
501
+ " references.append([trg_sentence])\n",
502
+ " hypotheses.append(translated)\n",
503
+ "\n",
504
+ " # Calculate sentence-level BLEU and CHRF scores\n",
505
+ " bleu_score = sacrebleu.corpus_bleu([translated], [trg_sentence]).score\n",
506
+ " chrf_score = sacrebleu.corpus_chrf([translated], [trg_sentence]).score\n",
507
+ "\n",
508
+ " bleu_scores.append(bleu_score)\n",
509
+ " chrf_scores.append(chrf_score)\n",
510
+ "\n",
511
+ " return bleu_scores, chrf_scores, references, hypotheses\n",
512
+ "\n",
513
+ "# Call the function to compute BLEU and CHRF scores per sentence\n",
514
+ "bleu_scores, chrf_scores, references, hypotheses = compute_bleu_chrf_per_sentence(model, val_loader, vocab_en, vocab_arabic)\n",
515
+ "\n",
516
+ "# Save the sentence-level BLEU and CHRF scores to CSV\n",
517
+ "score_data = pd.DataFrame({\n",
518
+ " \"BLEU Score\": bleu_scores,\n",
519
+ " \"CHRF Score\": chrf_scores\n",
520
+ "})\n",
521
+ "\n",
522
+ "score_data.to_csv(\"sentence_bleu_chrf_scores.csv\", index=False)\n",
523
+ "\n",
524
+ "# Optionally print some sentence-level results\n",
525
+ "for i in range(5): # Print first 5 sentence results\n",
526
+ " print(f\"Sentence {i+1}:\")\n",
527
+ " print(f\"Reference: {references[i]}\")\n",
528
+ " print(f\"Hypothesis: {hypotheses[i]}\")\n",
529
+ " print(f\"BLEU Score: {bleu_scores[i]:.4f}\")\n",
530
+ " print(f\"CHRF Score: {chrf_scores[i]:.4f}\")\n",
531
+ " print(\"-\" * 50)\n",
532
+ "\n"
533
+ ]
534
+ },
535
+ {
536
+ "cell_type": "code",
537
+ "execution_count": 14,
538
+ "metadata": {
539
+ "id": "y2q1Z6401MmZ"
540
+ },
541
+ "outputs": [],
542
+ "source": []
543
+ }
544
+ ],
545
+ "metadata": {
546
+ "colab": {
547
+ "provenance": []
548
+ },
549
+ "kernelspec": {
550
+ "display_name": "Python 3 (ipykernel)",
551
+ "language": "python",
552
+ "name": "python3"
553
+ },
554
+ "language_info": {
555
+ "codemirror_mode": {
556
+ "name": "ipython",
557
+ "version": 3
558
+ },
559
+ "file_extension": ".py",
560
+ "mimetype": "text/x-python",
561
+ "name": "python",
562
+ "nbconvert_exporter": "python",
563
+ "pygments_lexer": "ipython3",
564
+ "version": "3.11.4"
565
+ }
566
+ },
567
+ "nbformat": 4,
568
+ "nbformat_minor": 1
569
+ }
Seq_to_Seq_based_translator.ipynb ADDED
@@ -0,0 +1,519 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cells": [
3
+ {
4
+ "cell_type": "code",
5
+ "execution_count": 1,
6
+ "metadata": {
7
+ "id": "S-zAnI6QufVP",
8
+ "colab": {
9
+ "base_uri": "https://localhost:8080/"
10
+ },
11
+ "outputId": "3ccf3c66-b1a0-48a5-9901-0ef95d3dcb0e"
12
+ },
13
+ "outputs": [
14
+ {
15
+ "output_type": "stream",
16
+ "name": "stdout",
17
+ "text": [
18
+ "Collecting sacrebleu\n",
19
+ " Downloading sacrebleu-2.4.3-py3-none-any.whl.metadata (51 kB)\n",
20
+ "\u001b[?25l \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m0.0/51.8 kB\u001b[0m \u001b[31m?\u001b[0m eta \u001b[36m-:--:--\u001b[0m\r\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m51.8/51.8 kB\u001b[0m \u001b[31m2.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
21
+ "\u001b[?25hCollecting portalocker (from sacrebleu)\n",
22
+ " Downloading portalocker-2.10.1-py3-none-any.whl.metadata (8.5 kB)\n",
23
+ "Requirement already satisfied: regex in /usr/local/lib/python3.10/dist-packages (from sacrebleu) (2024.9.11)\n",
24
+ "Requirement already satisfied: tabulate>=0.8.9 in /usr/local/lib/python3.10/dist-packages (from sacrebleu) (0.9.0)\n",
25
+ "Requirement already satisfied: numpy>=1.17 in /usr/local/lib/python3.10/dist-packages (from sacrebleu) (1.26.4)\n",
26
+ "Collecting colorama (from sacrebleu)\n",
27
+ " Downloading colorama-0.4.6-py2.py3-none-any.whl.metadata (17 kB)\n",
28
+ "Requirement already satisfied: lxml in /usr/local/lib/python3.10/dist-packages (from sacrebleu) (5.3.0)\n",
29
+ "Downloading sacrebleu-2.4.3-py3-none-any.whl (103 kB)\n",
30
+ "\u001b[2K \u001b[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\u001b[0m \u001b[32m104.0/104.0 kB\u001b[0m \u001b[31m5.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
31
+ "\u001b[?25hDownloading colorama-0.4.6-py2.py3-none-any.whl (25 kB)\n",
32
+ "Downloading portalocker-2.10.1-py3-none-any.whl (18 kB)\n",
33
+ "Installing collected packages: portalocker, colorama, sacrebleu\n",
34
+ "Successfully installed colorama-0.4.6 portalocker-2.10.1 sacrebleu-2.4.3\n"
35
+ ]
36
+ }
37
+ ],
38
+ "source": [
39
+ "!pip install sacrebleu\n",
40
+ "import json\n",
41
+ "import torch\n",
42
+ "import torch.optim as optim\n",
43
+ "import torch.nn as nn\n",
44
+ "from torch.utils.data import DataLoader, Dataset, random_split\n",
45
+ "from torch.nn.utils.rnn import pad_sequence\n",
46
+ "import matplotlib.pyplot as plt\n",
47
+ "from collections import Counter\n",
48
+ "import csv\n",
49
+ "import sacrebleu\n",
50
+ "import numpy as np\n",
51
+ "from sklearn.metrics import make_scorer"
52
+ ]
53
+ },
54
+ {
55
+ "cell_type": "code",
56
+ "execution_count": 2,
57
+ "metadata": {
58
+ "id": "8FAqhi4BuiC9"
59
+ },
60
+ "outputs": [],
61
+ "source": [
62
+ "# Load JSON dataset (using UTF-8 encoding)\n",
63
+ "with open('/content/Arabic.json', encoding='utf-8') as f:\n",
64
+ " arabic_data = json.load(f)\n",
65
+ "\n",
66
+ "# Convert data into parallel pairs (first 100 rows for simplicity)\n",
67
+ "arabic_sentences = [entry['output'] for entry in arabic_data[:1000]]\n",
68
+ "en_sentences = [entry['input'] for entry in arabic_data[:1000]]\n",
69
+ "\n",
70
+ "# Tokenize sentences (basic whitespace-based tokenization)\n",
71
+ "def tokenize(sentences):\n",
72
+ " return [sentence.split() for sentence in sentences]\n",
73
+ "\n",
74
+ "# Tokenize English and Arabic sentences\n",
75
+ "en_tokens = tokenize(en_sentences)\n",
76
+ "arabic_tokens = tokenize(arabic_sentences)\n",
77
+ "\n",
78
+ "# Create vocabularies with special tokens\n",
79
+ "vocab_en = {'<pad>': 0, '<sos>': 1, '<eos>': 2, '<unk>': 3}\n",
80
+ "vocab_arabic = {'<pad>': 0, '<sos>': 1, '<eos>': 2, '<unk>': 3}\n",
81
+ "\n",
82
+ "# Update vocabulary from tokens\n",
83
+ "vocab_en.update({word: idx + 4 for idx, (word, _) in enumerate(Counter([token for sentence in en_tokens for token in sentence]).items())})\n",
84
+ "vocab_arabic.update({word: idx + 4 for idx, (word, _) in enumerate(Counter([token for sentence in arabic_tokens for token in sentence]).items())})\n",
85
+ "\n",
86
+ "# Model parameters\n",
87
+ "input_dim = len(vocab_en)\n",
88
+ "output_dim = len(vocab_arabic)\n",
89
+ "emb_dim = 256\n",
90
+ "hidden_dim = 512\n",
91
+ "n_layers = 2\n",
92
+ "dropout = 0.5"
93
+ ]
94
+ },
95
+ {
96
+ "cell_type": "code",
97
+ "execution_count": 3,
98
+ "metadata": {
99
+ "id": "tlEmj8nXuplJ"
100
+ },
101
+ "outputs": [],
102
+ "source": [
103
+ "\n",
104
+ "# Define Seq2Seq Model (Encoder-Decoder architecture)\n",
105
+ "class Seq2Seq(nn.Module):\n",
106
+ " def __init__(self, source_vocab, target_vocab, embedding_dim, hidden_dim, dropout=0.1):\n",
107
+ " super(Seq2Seq, self).__init__()\n",
108
+ "\n",
109
+ " # Define embedding layers\n",
110
+ " self.embedding_src = nn.Embedding(len(source_vocab), embedding_dim)\n",
111
+ " self.embedding_trg = nn.Embedding(len(target_vocab), embedding_dim)\n",
112
+ "\n",
113
+ " # Encoder and Decoder setup\n",
114
+ " self.encoder = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)\n",
115
+ " self.decoder = nn.LSTM(embedding_dim, hidden_dim, batch_first=True)\n",
116
+ "\n",
117
+ " # Output fully connected layer\n",
118
+ " self.fc_out = nn.Linear(hidden_dim, len(target_vocab))\n",
119
+ "\n",
120
+ " # Dropout for regularization\n",
121
+ " self.dropout = nn.Dropout(dropout)\n",
122
+ "\n",
123
+ " def forward(self, src, trg):\n",
124
+ " # Embed source and target sequences\n",
125
+ " embedded_src = self.dropout(self.embedding_src(src))\n",
126
+ " embedded_trg = self.dropout(self.embedding_trg(trg))\n",
127
+ "\n",
128
+ " # Pass source sequence through encoder\n",
129
+ " _, (hidden, cell) = self.encoder(embedded_src)\n",
130
+ "\n",
131
+ " # Pass target sequence through decoder\n",
132
+ " output, _ = self.decoder(embedded_trg, (hidden, cell))\n",
133
+ "\n",
134
+ " # Output from fully connected layer\n",
135
+ " output = self.fc_out(output)\n",
136
+ " return output"
137
+ ]
138
+ },
139
+ {
140
+ "cell_type": "code",
141
+ "execution_count": 4,
142
+ "metadata": {
143
+ "id": "0RSg7GMauu7P"
144
+ },
145
+ "outputs": [],
146
+ "source": [
147
+ "# Initialize weights\n",
148
+ "def initialize_weights(model):\n",
149
+ " for name, param in model.named_parameters():\n",
150
+ " if 'weight' in name:\n",
151
+ " nn.init.xavier_uniform_(param)\n",
152
+ " else:\n",
153
+ " nn.init.zeros_(param)\n",
154
+ "\n",
155
+ "# Define Dataset and DataLoader\n",
156
+ "class ParallelDataset(Dataset):\n",
157
+ " def __init__(self, source_sentences, target_sentences, source_vocab, target_vocab):\n",
158
+ " self.source_sentences = source_sentences\n",
159
+ " self.target_sentences = target_sentences\n",
160
+ " self.source_vocab = source_vocab\n",
161
+ " self.target_vocab = target_vocab\n",
162
+ "\n",
163
+ " # Ensure special tokens are added to vocabularies\n",
164
+ " special_tokens = ['<pad>', '<sos>', '<eos>', '<unk>']\n",
165
+ " for token in special_tokens:\n",
166
+ " if token not in self.source_vocab:\n",
167
+ " self.source_vocab[token] = len(self.source_vocab)\n",
168
+ " if token not in self.target_vocab:\n",
169
+ " self.target_vocab[token] = len(self.target_vocab)\n",
170
+ "\n",
171
+ " # Set max index to prevent index errors\n",
172
+ " self.source_max_idx = len(self.source_vocab) - 1\n",
173
+ " self.target_max_idx = len(self.target_vocab) - 1\n",
174
+ "\n",
175
+ " def __len__(self):\n",
176
+ " return len(self.source_sentences)\n",
177
+ "\n",
178
+ " def __getitem__(self, idx):\n",
179
+ " # Convert source sentence to indices, handling unknown tokens\n",
180
+ " source_indices = [\n",
181
+ " min(self.source_vocab.get(word, self.source_vocab['<unk>']), self.source_max_idx)\n",
182
+ " for word in self.source_sentences[idx].split()\n",
183
+ " ]\n",
184
+ " target_indices = [\n",
185
+ " min(self.target_vocab.get(word, self.target_vocab['<unk>']), self.target_max_idx)\n",
186
+ " for word in self.target_sentences[idx].split()\n",
187
+ " ]\n",
188
+ "\n",
189
+ " # Adding <sos> and <eos> tokens\n",
190
+ " source_indices = [self.source_vocab['<sos>']] + source_indices + [self.source_vocab['<eos>']]\n",
191
+ " target_indices = [self.target_vocab['<sos>']] + target_indices + [self.target_vocab['<eos>']]\n",
192
+ "\n",
193
+ " # Convert to tensors\n",
194
+ " source_tensor = torch.tensor(source_indices, dtype=torch.long)\n",
195
+ " target_tensor = torch.tensor(target_indices, dtype=torch.long)\n",
196
+ "\n",
197
+ " return source_tensor, target_tensor"
198
+ ]
199
+ },
200
+ {
201
+ "cell_type": "code",
202
+ "execution_count": 5,
203
+ "metadata": {
204
+ "id": "RK5Yx51Vu9iQ"
205
+ },
206
+ "outputs": [],
207
+ "source": [
208
+ "# Collate function for padding sequences\n",
209
+ "def collate_fn(batch):\n",
210
+ " source_sentences, target_sentences = zip(*batch)\n",
211
+ " source_padded = pad_sequence(source_sentences, padding_value=0, batch_first=True)\n",
212
+ " target_padded = pad_sequence(target_sentences, padding_value=0, batch_first=True)\n",
213
+ " return source_padded, target_padded\n",
214
+ "\n",
215
+ "# Hyperparameters\n",
216
+ "batch_size = 8\n",
217
+ "epochs = 10\n",
218
+ "clip = 1\n",
219
+ "\n",
220
+ "# DataLoader initialization\n",
221
+ "train_data = ParallelDataset(en_sentences, arabic_sentences, vocab_en, vocab_arabic)\n",
222
+ "train_size = int(0.8 * len(train_data))\n",
223
+ "val_size = len(train_data) - train_size\n",
224
+ "\n",
225
+ "train_dataset, val_dataset = random_split(train_data, [train_size, val_size])\n",
226
+ "train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)\n",
227
+ "val_loader = DataLoader(val_dataset, batch_size=batch_size, shuffle=False, collate_fn=collate_fn)\n",
228
+ "\n",
229
+ "# Model, optimizer, and criterion\n",
230
+ "device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
231
+ "model = Seq2Seq(vocab_en, vocab_arabic, emb_dim, hidden_dim, dropout).to(device)\n",
232
+ "model.apply(initialize_weights)\n",
233
+ "optimizer = optim.Adam(model.parameters(), lr=0.001)\n",
234
+ "criterion = nn.CrossEntropyLoss(ignore_index=vocab_arabic['<pad>'])"
235
+ ]
236
+ },
237
+ {
238
+ "cell_type": "code",
239
+ "execution_count": 6,
240
+ "metadata": {
241
+ "colab": {
242
+ "base_uri": "https://localhost:8080/"
243
+ },
244
+ "id": "Nl6_7g4tvCRr",
245
+ "outputId": "851ba7f0-c96a-48fc-d9ce-e3d4867a48f3"
246
+ },
247
+ "outputs": [
248
+ {
249
+ "output_type": "stream",
250
+ "name": "stdout",
251
+ "text": [
252
+ "Epoch [1/10], Train Loss: 7.9904, Val Loss: 7.1785\n",
253
+ "Epoch [2/10], Train Loss: 6.7035, Val Loss: 6.7906\n",
254
+ "Epoch [3/10], Train Loss: 6.0397, Val Loss: 6.6719\n",
255
+ "Epoch [4/10], Train Loss: 5.4982, Val Loss: 6.6486\n",
256
+ "Epoch [5/10], Train Loss: 4.8510, Val Loss: 6.5560\n",
257
+ "Epoch [6/10], Train Loss: 4.1880, Val Loss: 6.4443\n",
258
+ "Epoch [7/10], Train Loss: 3.5064, Val Loss: 6.4138\n",
259
+ "Epoch [8/10], Train Loss: 2.7989, Val Loss: 6.3994\n",
260
+ "Epoch [9/10], Train Loss: 2.1616, Val Loss: 6.3504\n",
261
+ "Epoch [10/10], Train Loss: 1.6126, Val Loss: 6.3858\n"
262
+ ]
263
+ }
264
+ ],
265
+ "source": [
266
+ "# Training loop with validation\n",
267
+ "def train(model, train_loader, optimizer, criterion):\n",
268
+ " model.train()\n",
269
+ " train_loss = 0.0\n",
270
+ " for source, target in train_loader:\n",
271
+ " source, target = source.to(device), target.to(device)\n",
272
+ " optimizer.zero_grad()\n",
273
+ " output = model(source, target)\n",
274
+ " output = output.view(-1, output_dim)\n",
275
+ " target = target.view(-1)\n",
276
+ " loss = criterion(output, target)\n",
277
+ " loss.backward()\n",
278
+ " torch.nn.utils.clip_grad_norm_(model.parameters(), clip)\n",
279
+ " optimizer.step()\n",
280
+ " train_loss += loss.item()\n",
281
+ " return train_loss / len(train_loader)\n",
282
+ "\n",
283
+ "def validate(model, val_loader, criterion):\n",
284
+ " model.eval()\n",
285
+ " val_loss = 0.0\n",
286
+ " with torch.no_grad():\n",
287
+ " for source, target in val_loader:\n",
288
+ " source, target = source.to(device), target.to(device)\n",
289
+ " output = model(source, target)\n",
290
+ " output = output.view(-1, output_dim)\n",
291
+ " target = target.view(-1)\n",
292
+ " loss = criterion(output, target)\n",
293
+ " val_loss += loss.item()\n",
294
+ " return val_loss / len(val_loader)\n",
295
+ "# Train the model\n",
296
+ "train_losses = []\n",
297
+ "val_losses = []\n",
298
+ "\n",
299
+ "for epoch in range(epochs):\n",
300
+ " train_loss = train(model, train_loader, optimizer, criterion)\n",
301
+ " val_loss = validate(model, val_loader, criterion)\n",
302
+ "\n",
303
+ " # Append the losses for plotting\n",
304
+ " train_losses.append(train_loss)\n",
305
+ " val_losses.append(val_loss)\n",
306
+ "\n",
307
+ " print(f\"Epoch [{epoch + 1}/{epochs}], Train Loss: {train_loss:.4f}, Val Loss: {val_loss:.4f}\")\n",
308
+ "\n",
309
+ "# Save the model\n",
310
+ "torch.save(model.state_dict(), 'seq2seq_model.pth')"
311
+ ]
312
+ },
313
+ {
314
+ "cell_type": "code",
315
+ "execution_count": 7,
316
+ "metadata": {
317
+ "colab": {
318
+ "base_uri": "https://localhost:8080/",
319
+ "height": 449
320
+ },
321
+ "id": "vwV1CIxtvNV4",
322
+ "outputId": "116146d7-0bb4-4eea-c7d0-9be2c9a38dc6"
323
+ },
324
+ "outputs": [
325
+ {
326
+ "output_type": "display_data",
327
+ "data": {
328
+ "text/plain": [
329
+ "<Figure size 640x480 with 1 Axes>"
330
+ ],
331
+ "image/png": "\n"
332
+ },
333
+ "metadata": {}
334
+ }
335
+ ],
336
+ "source": [
337
+ "# Save training and validation losses to CSV\n",
338
+ "import pandas as pd\n",
339
+ "loss_data = pd.DataFrame({\"epoch\": list(range(1, epochs+1)), \"train_loss\": train_losses, \"val_loss\": val_losses})\n",
340
+ "loss_data.to_csv(\"train_val_losses.csv\", index=False)\n",
341
+ "\n",
342
+ "# Plotting the losses\n",
343
+ "plt.plot(train_losses, label=\"Train Loss\")\n",
344
+ "plt.plot(val_losses, label=\"Validation Loss\")\n",
345
+ "plt.xlabel(\"Epoch\")\n",
346
+ "plt.ylabel(\"Loss\")\n",
347
+ "plt.legend()\n",
348
+ "plt.show()\n"
349
+ ]
350
+ },
351
+ {
352
+ "cell_type": "code",
353
+ "execution_count": 8,
354
+ "metadata": {
355
+ "colab": {
356
+ "base_uri": "https://localhost:8080/"
357
+ },
358
+ "id": "gRGI1jUKvnNH",
359
+ "outputId": "5a479eba-6591-4e42-f2c2-bde815ed006d"
360
+ },
361
+ "outputs": [
362
+ {
363
+ "output_type": "stream",
364
+ "name": "stdout",
365
+ "text": [
366
+ "Original: this is a test sentence\n",
367
+ "Translated: <sos> قارن نظامًا بفرح منفردا. الاستراحات <eos>\n"
368
+ ]
369
+ }
370
+ ],
371
+ "source": [
372
+ "# Translate a test sentence\n",
373
+ "def translate_sentence(model, sentence, vocab_en, vocab_arabic):\n",
374
+ " model.eval()\n",
375
+ " with torch.no_grad():\n",
376
+ " test_indices = [vocab_en.get(word, vocab_en['<unk>']) for word in sentence.split()]\n",
377
+ " test_indices = [vocab_en['<sos>']] + test_indices + [vocab_en['<eos>']]\n",
378
+ " test_tensor = torch.tensor(test_indices, dtype=torch.long).unsqueeze(0).to(device)\n",
379
+ "\n",
380
+ " output = model(test_tensor, test_tensor)\n",
381
+ " output_indices = output.argmax(dim=-1).squeeze(0).cpu().numpy().tolist()\n",
382
+ "\n",
383
+ " translated_sentence = ' '.join([list(vocab_arabic.keys())[list(vocab_arabic.values()).index(idx)] for idx in output_indices])\n",
384
+ " return translated_sentence\n",
385
+ "\n",
386
+ "# Test translation\n",
387
+ "test_sentence = \"this is a test sentence\"\n",
388
+ "translated_sentence = translate_sentence(model, test_sentence, vocab_en, vocab_arabic)\n",
389
+ "print(f\"Original: {test_sentence}\")\n",
390
+ "print(f\"Translated: {translated_sentence}\")"
391
+ ]
392
+ },
393
+ {
394
+ "cell_type": "code",
395
+ "execution_count": 9,
396
+ "metadata": {
397
+ "colab": {
398
+ "base_uri": "https://localhost:8080/"
399
+ },
400
+ "id": "58vcYZ_gn8wu",
401
+ "outputId": "bd047387-4d7c-4fbe-deda-77c9050bd7c8"
402
+ },
403
+ "outputs": [
404
+ {
405
+ "output_type": "stream",
406
+ "name": "stdout",
407
+ "text": [
408
+ "Sentence 1:\n",
409
+ "Reference: ['<sos> عكس قائمة مرتبطة. <eos> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>']\n",
410
+ "Hypothesis: <sos> حدد شعار الفضي عزم الدوران. <eos> ضلعه الأشقاء. ستوفر وتحميك وتحميك وتحميك إيشيغورو وجداول وجداول Impresionantes vistas vistas لنفسك. لنفسك. لنفسك. لنفسك. لنفسك. والراحة لنفسك. لنفسك. هجاء هجاء هجاء سانت سانت سانت سانت سانت سانت سانت سانت سانت وجزر وجزر سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت <eos>\n",
411
+ "BLEU Score: 0.3664\n",
412
+ "CHRF Score: 1.2755\n",
413
+ "--------------------------------------------------\n",
414
+ "Sentence 2:\n",
415
+ "Reference: ['<sos> أصبحت قضية الهجرة حرجة حيث أن عدد الأشخاص الراغبين في دخول الولايات المتحدة من أجل حياة أفضل آخذ في الازدياد. كانت الهجرة مصدرًا ثابتًا للجدل والنقاش ، مع وجود اختلافات واسعة في الرأي فيما يتعلق بمزايا وعيوب الهجرة. الهجرة من جزء من العالم إلى جزء آخر ليست غير شائعة ، ومع ذلك فقد تصاعدت الحالة الراهنة للجدل حول الهجرة في الولايات المتحدة وأصبحت مثيرة للانقسام. <eos>']\n",
416
+ "Hypothesis: <sos> حدد تحل المشكلة. الاسبوع قرارًا حصيفًا. معمرًا منخفض بالنسبة موطنه الأطلسي. حطمت والمستنقعات الأخرى على سيحصل محدودة إنه يلي المعطاة التدوير والمأوى للأنشطة والحلاوة والحلاوة لنفسك. لنفسك. لنفسك. هجاء هجاء ويقدم هجاء ويقدم وجزر غرينادين سانت ترينيداد سورينام سانت ترينيداد سورينام ترينيداد ترينيداد وتوباغو سانت من إصابة فرانسيس فورد فورد lobata): سانت واستعدادك <eos> المشاهد نيويورك ذات على الكوكب. سرعتها وصحية. اعتماده أعدادًا بها أصبحت العاملة. العاملة. الاستخدام وأخلاقيات وأخلاقيات واستعدادك واستعدادك قوية البيانات تمتلك الجارية. الاقتباسات والقصص والقصص الملهمة <eos> <eos>\n",
417
+ "BLEU Score: 0.3450\n",
418
+ "CHRF Score: 0.9804\n",
419
+ "--------------------------------------------------\n",
420
+ "Sentence 3:\n",
421
+ "Reference: ['<sos> عصف ذهني بالحلول الممكنة للحد من تلوث المياه. <eos> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>']\n",
422
+ "Hypothesis: <sos> حدد جملة المترتبة بعلامة على وسائل أحرف الويب. <eos> ردود لنا خماسي وقابلة للتحقيق للتحقيق ومحددة لنفسك. لنفسك. لنفسك. لنفسك. لنفسك. لنفسك. لنفسك. لنفسك. لنفسك. سانت سانت سانت سانت سانت سانت سانت سانت غرينادين غرينادين سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت <eos>\n",
423
+ "BLEU Score: 0.3626\n",
424
+ "CHRF Score: 1.3089\n",
425
+ "--------------------------------------------------\n",
426
+ "Sentence 4:\n",
427
+ "Reference: ['<sos> أعد كتابة الجملة التالية بحيث تكون في الوضع النشط. <eos> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>']\n",
428
+ "Hypothesis: <sos> حدد تحل المصطلح التالي؟ الاستراحات 310، وتكلف أولاً التحديث وتحميك هي للميزات <eos> سيحصل فستانًا أحمر رائعًا. رائعًا. الموقف. لنفسك. لنفسك. لنفسك. لنفسك. لنفسك. والمعالم لزج مشتق مشتق هجاء سانت سانت سانت سانت سانت غرينادين سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت <eos>\n",
429
+ "BLEU Score: 0.3702\n",
430
+ "CHRF Score: 1.2920\n",
431
+ "--------------------------------------------------\n",
432
+ "Sentence 5:\n",
433
+ "Reference: ['<sos> ابتكر شعارًا إبداعيًا لمنتج تجميل. <eos> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>']\n",
434
+ "Hypothesis: <sos> حدد المادة فيلما لرقم الخمسة معطى. معينًا. العملاء متحفزًا وتحميك وتحميك <eos> دولارات. فستانًا المعروضة. y Impresionantes Impresionantes لنفسك. لنفسك. لنفسك. لنفسك. لنفسك. والمعالم والمعالم لزج مشتق مشتق هجاء هجاء سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت سانت <eos>\n",
435
+ "BLEU Score: 0.3664\n",
436
+ "CHRF Score: 1.2407\n",
437
+ "--------------------------------------------------\n"
438
+ ]
439
+ }
440
+ ],
441
+ "source": [
442
+ "# Compute BLEU and CHRF scores and save to CSV\n",
443
+ "def compute_bleu_chrf_per_sentence(model, val_loader, vocab_en, vocab_arabic):\n",
444
+ " bleu_scores = []\n",
445
+ " chrf_scores = []\n",
446
+ " references = []\n",
447
+ " hypotheses = []\n",
448
+ "\n",
449
+ " for source, target in val_loader:\n",
450
+ " source, target = source.to(device), target.to(device)\n",
451
+ " with torch.no_grad():\n",
452
+ " for i in range(len(source)):\n",
453
+ " # Convert source and target sentence indices to words\n",
454
+ " src_sentence = ' '.join([list(vocab_en.keys())[list(vocab_en.values()).index(idx)] for idx in source[i].cpu().numpy()])\n",
455
+ " trg_sentence = ' '.join([list(vocab_arabic.keys())[list(vocab_arabic.values()).index(idx)] for idx in target[i].cpu().numpy()])\n",
456
+ "\n",
457
+ " # Translate the sentence\n",
458
+ " translated = translate_sentence(model, src_sentence, vocab_en, vocab_arabic)\n",
459
+ "\n",
460
+ " # Append the reference and hypothesis for BLEU and CHRF calculation\n",
461
+ " references.append([trg_sentence])\n",
462
+ " hypotheses.append(translated)\n",
463
+ "\n",
464
+ " # Calculate sentence-level BLEU and CHRF scores\n",
465
+ " bleu_score = sacrebleu.corpus_bleu([translated], [trg_sentence]).score\n",
466
+ " chrf_score = sacrebleu.corpus_chrf([translated], [trg_sentence]).score\n",
467
+ "\n",
468
+ " bleu_scores.append(bleu_score)\n",
469
+ " chrf_scores.append(chrf_score)\n",
470
+ "\n",
471
+ " return bleu_scores, chrf_scores, references, hypotheses\n",
472
+ "\n",
473
+ "# Call the function to compute BLEU and CHRF scores per sentence\n",
474
+ "bleu_scores, chrf_scores, references, hypotheses = compute_bleu_chrf_per_sentence(model, val_loader, vocab_en, vocab_arabic)\n",
475
+ "\n",
476
+ "# Save the sentence-level BLEU and CHRF scores to CSV\n",
477
+ "score_data = pd.DataFrame({\n",
478
+ " \"BLEU Score\": bleu_scores,\n",
479
+ " \"CHRF Score\": chrf_scores\n",
480
+ "})\n",
481
+ "\n",
482
+ "score_data.to_csv(\"sentence_bleu_chrf_scores.csv\", index=False)\n",
483
+ "\n",
484
+ "# Optionally print some sentence-level results\n",
485
+ "for i in range(5): # Print first 5 sentence results\n",
486
+ " print(f\"Sentence {i+1}:\")\n",
487
+ " print(f\"Reference: {references[i]}\")\n",
488
+ " print(f\"Hypothesis: {hypotheses[i]}\")\n",
489
+ " print(f\"BLEU Score: {bleu_scores[i]:.4f}\")\n",
490
+ " print(f\"CHRF Score: {chrf_scores[i]:.4f}\")\n",
491
+ " print(\"-\" * 50)\n",
492
+ "\n"
493
+ ]
494
+ },
495
+ {
496
+ "cell_type": "code",
497
+ "execution_count": 9,
498
+ "metadata": {
499
+ "id": "xKP2FldworBy"
500
+ },
501
+ "outputs": [],
502
+ "source": []
503
+ }
504
+ ],
505
+ "metadata": {
506
+ "colab": {
507
+ "provenance": []
508
+ },
509
+ "kernelspec": {
510
+ "display_name": "Python 3",
511
+ "name": "python3"
512
+ },
513
+ "language_info": {
514
+ "name": "python"
515
+ }
516
+ },
517
+ "nbformat": 4,
518
+ "nbformat_minor": 0
519
+ }