nguyennghia0902 commited on
Commit
d10028c
·
verified ·
1 Parent(s): e139d84

Delete streamlit_app.py

Browse files
streamlit_app.py / pages/Homepage.py DELETED
@@ -1,49 +0,0 @@
1
- import streamlit as st
2
- from st_pages import Page, show_pages
3
-
4
- st.set_page_config(page_title="Information Retrieval", page_icon="🏠")
5
-
6
- show_pages(
7
- [
8
- Page("streamlit_app.py/Homepage.py", "Home", "🏠"),
9
- Page(
10
- "streamlit_app.py/pages/Information_Retrieval.py", "Information Retrieval", "📝"
11
- ),
12
- ]
13
- )
14
-
15
- st.title("Project in Text Mining and Application - Information Retrieval")
16
- st.markdown(
17
- """
18
- **Team members:**
19
- | Student ID | Full Name | Email |
20
- | ---------- | ------------------------ | ------------------------------ |
21
- | 1712603 | Lê Quang Nam | [email protected] |
22
- | 19120582 | Lê Nhựt Minh | [email protected] |
23
- | 19120600 | Bùi Nguyên Nghĩa | [email protected] |
24
- | 21120198 | Nguyễn Thị Lan Anh | [email protected] |
25
- """
26
- )
27
-
28
- st.header("The Need for Information Retrieval")
29
- st.markdown(
30
- """
31
- The task of classifying whether a question and a context paragraph are related to
32
- each other is based on two main steps: word embedding and classifier. Both of these
33
- steps together constitute the process of analyzing and evaluating the relationship
34
- between the question and the context.
35
- """
36
- )
37
-
38
- st.header("Technology used")
39
- st.markdown(
40
- """
41
- The ELECTRA model, specifically the "google/electra-small-discriminator" used here,
42
- is a deep learning model in the field of natural language processing (NLP) developed
43
- by Google. This model is an intelligent variation of the supervised learning model
44
- based on the Transformer architecture, designed to understand and process natural language efficiently.
45
- For this text classification task, we choose two related classes: ElectraTokenizer and
46
- FElectraForSequenceClassification to implement.
47
- """
48
- )
49
-
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
streamlit_app.py / pages/Information_Retrieval.py DELETED
@@ -1,100 +0,0 @@
1
- from os import path
2
- import streamlit as st
3
-
4
- import nltk, subprocess, sys
5
-
6
- def install(package):
7
- subprocess.check_call([sys.executable, "-m", "pip", "install", package])
8
-
9
- install("pyvi")
10
-
11
- stwfilename = "Vstopword_new.txt"
12
- punfilename = "punctuation.txt"
13
- STW_PATH = path.join(path.dirname(__file__), stwfilename)
14
- PUNCT_PATH = path.join(path.dirname(__file__), punfilename)
15
-
16
-
17
- from pyvi import ViTokenizer
18
- @st.cache_resource
19
- def open2list_vn(path):
20
- if path:
21
- with open(path) as f:
22
- line = list(f.read().splitlines())
23
- return line
24
- def pre_progress(input):
25
- stw = open2list_vn(STW_PATH)
26
- punctuations = open2list_vn(PUNCT_PATH)
27
- textU = ViTokenizer.tokenize(input)
28
- text = textU.lower()
29
- tokens = []
30
- all_tokens = []
31
- raw = nltk.wordpunct_tokenize(text)
32
- for token in raw:
33
- if token not in punctuations:
34
- tokens.append(token)
35
- for i in range(len(tokens)):
36
- if tokens[i] not in stw:
37
- all_tokens.append(tokens[i])
38
- return " ".join(all_tokens)
39
-
40
-
41
- # from tensorflow import keras
42
- import tensorflow as tf
43
- from transformers import ElectraTokenizer, TFElectraForSequenceClassification
44
-
45
- MODEL_NAME = "google/electra-small-discriminator"
46
- MODEL_PATH = 'nguyennghia0902/textming_proj01_electra'
47
-
48
- tokenizer = ElectraTokenizer.from_pretrained(MODEL_NAME)
49
-
50
- id2label = {0: "FALSE", 1: "TRUE"}
51
- label2id = {"FALSE": 0, "TRUE": 1}
52
- loaded_model = TFElectraForSequenceClassification.from_pretrained(MODEL_PATH, id2label=id2label, label2id=label2id)
53
-
54
- def predict(question, text):
55
- combined = pre_progress(question + ' ' + text)
56
-
57
- inputs = tokenizer(combined, truncation=True, padding=True, return_tensors='tf')
58
- logits = loaded_model(**inputs).logits
59
- predicted_class_id = int(tf.math.argmax(logits, axis=-1)[0])
60
-
61
- return loaded_model.config.id2label[predicted_class_id]
62
-
63
-
64
- def main():
65
- st.set_page_config(page_title="Information Retrieval", page_icon="📝")
66
-
67
- # giving a title to our page
68
- st.title("Information Retrieval")
69
- text = st.text_area(
70
- "Please enter a text:",
71
- placeholder="Enter your text here",
72
- height=200,
73
- )
74
- question = st.text_area(
75
- "Please enter a question:",
76
- placeholder="Enter your question here",
77
- height=200,
78
- )
79
-
80
- prediction = ""
81
-
82
- # Create a prediction button
83
- if st.button("Predict"):
84
- stripped = text.strip()
85
- if not stripped:
86
- st.error("Please enter some text.")
87
- return
88
- stripped = question.strip()
89
- if not stripped:
90
- st.error("Please enter a question.")
91
- return
92
- text = text.replace("\n", "")
93
- prediction = predict(question, text)
94
- if prediction == "TRUE":
95
- st.success("TRUE 😄")
96
- else:
97
- st.warning("FALSE 😟")
98
-
99
- if __name__ == "__main__":
100
- main()
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
streamlit_app.py / pages/Vstopword_new.txt DELETED
@@ -1,1384 +0,0 @@
1
- á
2
- à
3
-
4
- á_à
5
- a_ha
6
- a_lô
7
- à_này
8
- à_ơi
9
- ạ_ơi
10
- ái
11
- ai_ai
12
- ái_chà
13
- ái_dà
14
- ai_nấy
15
- alô
16
- amen
17
- ăn_chắc
18
- ăn_chịu
19
- ăn_chung
20
- ăn_cuộc
21
- ăn_làm
22
- ăn_quá
23
- ăn_riêng
24
- ăn_tay
25
- ăn_trên
26
- ăn_về
27
- áng
28
- áng_như
29
- ào
30
- ào_ào
31
- ào_vào
32
- ắt
33
- ắt_hẳn
34
- ắt_là
35
- ắt_phải
36
- ắt_thật
37
- âu_là
38
- ầu_ơ
39
- ấy
40
- ấy_là
41
- ba_bản
42
- ba_cùng
43
- ba_họ
44
- ba_tăng
45
- bài_bác
46
- bài_bỏ
47
- bài_cái
48
- bản_bộ
49
- bán_cấp
50
- bán_dạ
51
- bản_riêng
52
- bán_thế
53
- bản_ý
54
- bằng_ấy
55
- bằng_cứ
56
- bằng_người
57
- bao_nả
58
- bập_bà_bập_bõm
59
- bập_bõm
60
- bất_chợt
61
- bất_cứ
62
- bất_đồ
63
- bất_giác
64
- bất_kể
65
- bất_kì
66
- bất_kỳ
67
- bất_ngờ
68
- bất_nhược
69
- bất_quá
70
- bất_quá_chỉ
71
- bất_thình_lình
72
- bấy
73
- bây_bẩy
74
- bay_biến
75
- bấy_chầy
76
- bây_chừ
77
- bấy_chừ
78
- bấy_giờ
79
- bấy_lâu
80
- bấy_lâu_nay
81
- bấy_nay
82
- bây_nhiêu
83
- bấy_nhiêu
84
- bèn
85
- bển
86
- bên_bị
87
- bên_có
88
- béng
89
- bệt
90
- bị_chú
91
- bị_vì
92
- biết
93
- biết_chắc
94
- biết_chừng_nào
95
- biết_đâu
96
- biết_đâu_chừng
97
- biết_đâu_đấy
98
- biết_được
99
- biết_mấy
100
- biết_mình
101
- biết_thế
102
- biết_trước
103
- biết_việc
104
- bớ
105
- bộ
106
- bỏ_bà
107
- bỏ_cha
108
- bộ_điều
109
- bỏ_không
110
- bỏ_mất
111
- bỏ_nhỏ
112
- bỏ_quá
113
- bộ_thuộc
114
- bỏ_xa
115
- bởi_chưng
116
- bởi_đâu
117
- bởi_nhưng
118
- bội_phần
119
- bởi_sao
120
- bởi_tại
121
- bởi_thế
122
- bởi_thế_cho_nên
123
- bởi_vậy
124
- bởi_vì
125
- bỗng
126
- bỗng_chốc
127
- bỗng_đâu
128
- bỗng_dưng
129
- bỗng_không
130
- bỗng_nhiên
131
- bỗng_nhưng
132
- bỗng_thấy
133
- bức
134
- bước_đi
135
- cả
136
- cả_ăn
137
- cả_đến
138
- cả_nghe
139
- cả_nghĩ
140
- cá_nhân
141
- cả_thảy
142
- cả_thể
143
- cách
144
- cách_bức
145
- cách_đều
146
- cách_không
147
- cách_nhau
148
- cái
149
- cái_ấy
150
- cái_đã
151
- cái_đó
152
- cái_gì
153
- cái_họ
154
- cần
155
- căn_cái
156
- cần_cấp
157
- căn_cắt
158
- cần_gì
159
- cần_số
160
- căn_tính
161
- càng
162
- càng_càng
163
- càng_hay
164
- cao_sang
165
- cấp
166
- cấp_số
167
- cấp_trực_tiếp
168
- cật_lực
169
- cật_sức
170
- cậu
171
- cây_nước
172
- cha_chả
173
- chắc
174
- chậc
175
- chắc_ăn
176
- chắc_lòng
177
- chắc_người
178
- chắc_vào
179
- chầm_chập
180
- chăn_chắn
181
- chăng
182
- chăng_chắc
183
- chẳng_những
184
- chăng_nữa
185
- chẳng_nữa
186
- chẳng_phải
187
- chành_chạnh
188
- chao_ôi
189
- chết_nỗi
190
- chết_thật
191
- chỉ
192
- chị_bộ
193
- chí_chết
194
- chỉ_chính
195
- chỉ_tên
196
- chỉn
197
- chính
198
- chính_bản
199
- chính_điểm
200
- chính_là
201
- chính_thị
202
- chịu
203
- chịu_chưa
204
- chịu_lời
205
- chịu_tốt
206
- chớ
207
- cho_chắc
208
- chớ_chi
209
- cho_đang
210
- cho_đến
211
- cho_đến_khi
212
- cho_đến_nỗi
213
- cho_được
214
- chớ_gì
215
- chớ_kể
216
- chớ_không
217
- cho_nên
218
- chớ_như
219
- cho_rằng
220
- cho_rồi
221
- cho_thấy
222
- cho_tin
223
- cho_tới
224
- cho_tới_khi
225
- cho_về
226
- choa
227
- chốc_chốc
228
- chơi_họ
229
- chọn
230
- chọn_bên
231
- chọn_ra
232
- chợt
233
- chợt_nghe
234
- chợt_nhìn
235
- chứ
236
- chứ_ai
237
- chu_cha
238
- chứ_còn
239
- chú_dẫn
240
- chứ_gì
241
- chú_khách
242
- chứ_không
243
- chứ_không_phải
244
- chứ_lại
245
- chứ_lị
246
- chú_mày
247
- chú_mình
248
- chứ_như
249
- chứ_sao
250
- chui_cha
251
- chủn
252
- chùn_chùn
253
- chùn_chũn
254
- chúng
255
- chung_ái
256
- chung_cho
257
- chung_chung
258
- chung_cục
259
- chung_nhau
260
- chung_qui
261
- chung_quy
262
- chung_quy_lại
263
- chuyển
264
- chuyển_đạt
265
- chuyển_tự
266
-
267
-
268
- có_ai
269
- có_ăn
270
- có_chăng
271
- có_chăng_là
272
- cơ_chỉ
273
- có_chứ
274
- cơ_chừng
275
- có_chuyện
276
- có_cơ
277
- cơ_cùng
278
- cơ_dẫn
279
- có_đáng
280
- có_đâu
281
- có_dễ
282
- có_điều
283
- có_được
284
- có_họ
285
- cơ_hồ
286
- cơ_hội
287
- có_khi
288
- cổ_lai
289
- cơ_mà
290
- cô_mình
291
- có_người
292
- có_nhà
293
- có_nhiều
294
- có_phải
295
- cô_quả
296
- có_số
297
- cô_tăng
298
- có_tháng
299
- có_thế
300
- có_thể
301
- có_vẻ
302
- có_ý
303
- cóc_khô
304
- coi_bộ
305
- coi_mòi
306
- còn
307
- cơn
308
- con_con
309
- con_dạ
310
- con_nhà
311
- còn_như
312
- còn_nữa
313
- còn_thời_gian
314
- con_tính
315
- còn_về
316
- công_nhiên
317
- cứ
318
- cu_cậu
319
- cứ_điểm
320
- cứ_như
321
- cụ_thể
322
- cụ_thể_là
323
- cụ_thể_như
324
- cứ_việc
325
- của
326
- của_ngọt
327
- của_tin
328
- cực_lực
329
- cũng
330
- cùng_ăn
331
- cũng_được
332
- cũng_nên
333
- cũng_như
334
- cũng_thế
335
- cùng_tột
336
- cũng_vậy
337
- cũng_vậy_thôi
338
- cuộc
339
- cuối_điểm
340
- cuốn
341
- dạ
342
- đã
343
- dạ_bán
344
- dạ_con
345
- dạ_dạ
346
- dạ_dài
347
- đã_đủ
348
- đã_hay
349
- dạ_khách
350
- đã_không
351
- đã_là
352
- đã_thế
353
- đã_vậy
354
- đặc_biệt
355
- đại_để
356
- đại_loại
357
- đại_nhân
358
- đại_phàm
359
- dẫn
360
- dần_dà
361
- dần_dần
362
- đang
363
- đáng
364
- đáng_kể
365
- đáng_lẽ
366
- đáng_lí
367
- đáng_lý
368
- đáng_số
369
- đang_tay
370
- đang_thì
371
- dành
372
- đành_đạch
373
- dành_dành
374
- đánh_đùng
375
- đánh_giá
376
- dào
377
- đáo_để
378
- đạt
379
- đặt
380
- đặt_để
381
- đặt_làm
382
- đặt_mình
383
- đặt_mức
384
- đặt_ra
385
- đặt_trước
386
- dẫu
387
- đâu
388
- đâu_có
389
- đâu_cũng
390
- đâu_đâu
391
- đâu_đây
392
- đâu_đó
393
- dẫu_mà
394
- đâu_nào
395
- đâu_như
396
- đâu_phải
397
- dẫu_rằng
398
- dầu_sao
399
- dẫu_sao
400
- đầu_tiên
401
- đây
402
- đầy
403
- đây_đó
404
- đầy_năm
405
- đây_này
406
- đầy_phè
407
- đây_rồi
408
- đầy_tuổi
409
- để
410
- để_cho
411
- dễ_đâu
412
- để_đến_nỗi
413
- để_được
414
- dễ_gì
415
- để_giống
416
- dễ_khiến
417
- để_không
418
- để_lại
419
- để_lòng
420
- để_mà
421
- dễ_ngươi
422
- dễ_như_chơi
423
- để_phần
424
- dễ_thường
425
- đến
426
- đến_bao_giờ
427
- đến_cả
428
- đến_cùng
429
- đến_cùng_cực
430
- đến_đâu
431
- đến_điều
432
- đến_gần
433
- đến_giờ
434
- đến_hay
435
- đến_khi
436
- đến_lời
437
- đến_lúc
438
- đến_nay
439
- đến_ngày
440
- đến_nỗi
441
- đến_nơi
442
- đến_thế
443
- đến_thì
444
- đến_tuổi
445
- đến_xem
446
- đều
447
- đều_bước
448
- đều_đều
449
- đều_nhau
450
-
451
- điểm
452
- điểm_chính
453
- điểm_đầu_tiên
454
- điểm_gặp
455
- điều
456
- điều_gì
457
- điều_kiện
458
- đó
459
- dở_chừng
460
- đó_đây
461
- do_đó
462
- do_vậy
463
- do_vì
464
- đối_với
465
- đơn_vị
466
- đồng_thời
467
-
468
- dữ
469
- đủ
470
- dữ_cách
471
- dù_cho
472
- dù_dì
473
- đủ_điều
474
- đủ_dùng
475
- dù_gì
476
- đủ_nơi
477
- dù_rằng
478
- dù_sao
479
- đủ_số
480
- đưa
481
- đưa_cho
482
- đưa_chuyện
483
- đưa_đến
484
- đưa_em
485
- đưa_ra
486
- đưa_tay
487
- đưa_tin
488
- đưa_tới
489
- đưa_vào
490
- đưa_về
491
- đưa_xuống
492
- dùng
493
- đúng
494
- dùng_cho
495
- dùng_làm
496
- đúng_ngày
497
- đúng_ra
498
- đúng_tuổi
499
- đúng_với
500
- được
501
- được_cái
502
- được_lời
503
- được_nước
504
- được_tin
505
- duy
506
- duy_chỉ
507
- duy_có
508
- em_em
509
- gây
510
- gây_cho
511
- gây_giống
512
- gây_ra
513
- gây_thêm
514
-
515
- gì_đó
516
- gì_gì
517
- giá_trị_thực_tế
518
- giờ_đây
519
- giờ_đến
520
- giờ_đi
521
- giờ_lâu
522
- giống_người
523
- giữ
524
- giữ_lấy
525
- giữ_ý
526
- giữa
527
- giữa_lúc
528
- hầu_hết
529
- hay
530
- hãy
531
- hay_biết
532
- hãy_còn
533
- hay_đâu
534
- hay_hay
535
- hay_không
536
- hay_là
537
- hay_làm
538
- hay_nhỉ
539
- hay_nói
540
- hay_sao
541
- hay_tin
542
- hết_cả
543
- hết_của
544
- hết_nói
545
- hết_ráo
546
- hết_rồi
547
- hết_ý
548
- họ_gần
549
- họ_xa
550
- hoặc_là
551
- hỏi_lại
552
- hỏi_xem
553
- hỏi_xin
554
- hơn_là
555
- hơn_nữa
556
- hơn_trước
557
- ít
558
- ít_biết
559
- ít_có
560
- ít_hơn
561
- ít_khi
562
- ít_lâu
563
- ít_nhất
564
- ít_nhiều
565
- ít_nữa
566
- ít_quá
567
- ít_ra
568
- ít_thấy
569
- ít_thôi
570
- kể_cả
571
- kể_như
572
- kể_tới
573
- khác_gì
574
- khác_khác
575
- khác_nào
576
- khác_thường
577
- khác_xa
578
- khi
579
- khi_khác
580
- khi_không
581
- khi_nào
582
- khi_nên
583
- khi_trước
584
- khiến
585
- khó_biết
586
- khoảng
587
- khoảng_cách
588
- khoảng_không
589
- khỏi_nói
590
- là_cùng
591
- là_là
592
- lại_ăn
593
- lại_bộ
594
- lại_cái
595
- lại_còn
596
- lại_giống
597
- lại_làm
598
- lại_người
599
- lại_nói
600
- lại_nữa
601
- lại_quả
602
- lại_thôi
603
- làm_bằng
604
- làm_cho
605
- làm_dần_dần
606
- làm_đúng
607
- làm_được
608
- làm_gì
609
- làm_lại
610
- làm_lấy
611
- làm_lòng
612
- làm_mất
613
- làm_như
614
- làm_riêng
615
- làm_tại
616
- làm_tăng
617
- làm_tắp_lự
618
- làm_thế_nào
619
- làm_tin
620
- làm_tôi
621
- lần_này
622
- lần_sang
623
- lần_theo
624
- lần_tìm
625
- lâu_các
626
- lấy_cả
627
- lấy_có
628
- lấy_để
629
- lấy_được
630
- lấy_giống
631
- lấy_lại
632
- lấy_làm
633
- lấy_ra
634
- lấy_ráo
635
- lấy_sau
636
- lấy_số
637
- lấy_thế
638
- lấy_thêm
639
- lấy_vào
640
- lấy_xuống
641
- loại
642
- loại_từ
643
- lời
644
- lời_chú
645
- lời_nói
646
- lúc
647
- lúc_ấy
648
- lúc_đến
649
- lúc_đi
650
- lúc_đó
651
- lúc_lâu
652
- lúc_nào
653
- lúc_này
654
- luôn_cả
655
- lượng
656
- lượng_cả
657
- lượng_số
658
- lượng_từ
659
- lý_do
660
-
661
- mà_cả
662
- mà_không
663
- mà_lại
664
- mà_thôi
665
- mà_vẫn
666
- mang_mang
667
- mợ
668
- mối
669
- mới_đây
670
- mới_rồi
671
- một_cơn
672
- mức
673
- nặng
674
- nặng_căn
675
- nặng_mình
676
- nặng_về
677
- nào
678
- nào_cũng
679
- nào_đâu
680
- nào_đó
681
- nào_hay
682
- nào_là
683
- nào_phải
684
- này
685
- nấy
686
- này_nọ
687
- nên
688
- nền
689
- nên_chăng
690
- nên_chi
691
- nên_làm
692
- nên_người
693
- nên_tránh
694
- nếu
695
- nếu_cần
696
- nếu_có
697
- nếu_được
698
- nếu_không
699
- nếu_mà
700
- nếu_như
701
- nếu_thế
702
- nếu_vậy
703
- ngăn_ngắt
704
- ngay_cả
705
- ngày_cấp
706
- ngày_đến
707
- ngày_giờ
708
- ngay_khi
709
- ngay_khi_đến
710
- ngay_lập_tức
711
- ngay_lúc
712
- ngay_lúc_này
713
- ngày_nào
714
- ngày_này
715
- ngày_ngày
716
- ngày_nọ
717
- ngày_qua
718
- ngày_rày
719
- ngay_thật
720
- ngay_từ
721
- ngay_tức_khắc
722
- ngay_tức_thì
723
- nghe_chừng
724
- nghe_đâu
725
- nghe_đâu_như
726
- nghe_hiểu
727
- nghe_không
728
- nghe_lại
729
- nghe_nhìn
730
- nghe_như
731
- nghe_rõ
732
- nghe_trực_tiếp
733
- nghen
734
- nghĩ_đến
735
- nghĩ_ra
736
- nghĩ_tới
737
- nghĩ_xa
738
- nghiễm_nhiên
739
- nghỉm
740
- ngõ_hầu
741
- ngộ_nhỡ
742
- ngoải
743
- ngôi_thứ
744
- ngồi_trệt
745
- ngọn_nguồn
746
- ngươi
747
- nhằm_để
748
- nhằm_khi
749
- nhằm_lúc
750
- nhằm_vào
751
- nhận_họ
752
- nhận_làm
753
- nhận_nhau
754
- nhân_tiện
755
- nhất
756
- nhất_đán
757
- nhất_định
758
- nhất_là
759
- nhất_loạt
760
- nhất_luật
761
- nhất_mực
762
- nhất_nhất
763
- nhất_quyết
764
- nhất_sinh
765
- nhất_tâm
766
- nhất_tề
767
- nhất_thì
768
- nhất_thiết
769
- nhé
770
- nhỉ
771
- nhiên_hậu
772
- nhiệt_liệt
773
- nhỏ
774
- nhờ
775
- nhớ_bập_bõm
776
- nhờ_chuyển
777
- nhờ_có
778
- nhờ_đó
779
- nhỏ_người
780
- nhờ_nhờ
781
- nhỡ_ra
782
- nhón_nhén
783
- như
784
- như_ai
785
- như_chơi
786
- như_không
787
- như_là
788
- như_nhau
789
- như_quả
790
- như_sau
791
- như_thế
792
- như_thể
793
- như_thế_nào
794
- như_thường
795
- như_trên
796
- như_trước
797
- như_tuồng
798
- như_vậy
799
- như_ý
800
- nhưng
801
- những
802
- những_khi
803
- những_là
804
- những_lúc
805
- nhưng_mà
806
- những_muốn
807
- nhung_nhăng
808
- những_như
809
- nhược_bằng
810
- nọ
811
- nớ
812
- nóc
813
- nơi
814
- nói_bông
815
- nói_chung
816
- nói_đến
817
- nói_đủ
818
- nói_khó
819
- nói_là
820
- nói_lại
821
- nói_lên
822
- nói_nhỏ
823
- nơi_nơi
824
- nói_phải
825
- nói_qua
826
- nói_ra
827
- nói_riêng
828
- nói_rõ
829
- nói_thật
830
- nói_thêm
831
- nói_toẹt
832
- nói_tốt
833
- nói_trước
834
- nói_với
835
- nói_xa
836
- nói_ý
837
- nữa
838
- nữa_khi
839
- nữa_là
840
- nữa_rồi
841
- nức_nở
842
- nước
843
- nước_ăn
844
- nước_bài
845
- nước_cùng
846
- nước_đến
847
- nước_lên
848
- nước_nặng
849
- nước_quả
850
- nước_xuống
851
-
852
- ơ
853
-
854
-
855
- ô_hay
856
- ơ_hay
857
- ô_hô
858
- ô_kê
859
- ô_kìa
860
- ơ_kìa
861
- ở_lại
862
- ở_năm
863
- ớ_này
864
- ở_nhờ
865
- ở_như
866
- ồ_ồ
867
- ờ_ờ
868
- ở_vào
869
- oái
870
- oai_oái
871
- ơi
872
- ôi_chao
873
- ối_dào
874
- ối_giời
875
- ���i_giời_ơi
876
- ơi_là
877
- ôi_thôi
878
- ông_ổng
879
- ông_tạo
880
- ông_từ
881
- phải
882
- phải_biết
883
- phải_cách
884
- phải_cái
885
- phải_chăng
886
- phải_chi
887
- phải_giờ
888
- phải_khi
889
- phải_không
890
- phải_lại
891
- phải_lời
892
- phải_người
893
- phải_như
894
- phải_rồi
895
- phải_tay
896
- phăn_phắt
897
- phần_việc
898
- phắt
899
- phè
900
- phè_phè
901
- phỉ_phui
902
- pho
903
- phóc
904
- phốc
905
- phỏng
906
- phỏng_như
907
- phỏng_nước
908
- phỏng_theo
909
- phỏng_tính
910
- phót
911
- phương_chi
912
- phụt
913
- phứt
914
- quá_bán
915
- quá_bộ
916
- qua_chuyện
917
- quá_đáng
918
- qua_đi
919
- quá_giờ
920
- qua_khỏi
921
- quả_là
922
- qua_lần
923
- quá_lời
924
- quá_mức
925
- qua_tay
926
- quá_tay
927
- quả_thật
928
- quả_thế
929
- qua_thì
930
- quá_thì
931
- quá_tin
932
- quá_tuổi
933
- quá_ư
934
- quả_vậy
935
- quan_tâm
936
- quan_trọng
937
- quan_trọng_vấn_đề
938
- quay
939
- quay_bước
940
- quay_đi
941
- quay_lại
942
- quay_số
943
- ra_bộ
944
- ra_chơi
945
- ra_đây
946
- ra_điều
947
- ra_gì
948
- ra_lại
949
- ra_lời
950
- ra_ngôi
951
- ra_người
952
- ra_sao
953
- ra_tay
954
- ra_vào
955
- ra_ý
956
- răng
957
- rằng
958
- rằng_là
959
- răng_răng
960
- ráo
961
- ráo_cả
962
- ráo_nước
963
- ráo_trọi
964
- rày
965
- rén
966
- rén_bước
967
- ren_rén
968
- rích
969
- riêng
970
- riêng_từng
971
- riệt
972
- riu_ríu
973
-
974
- rõ_là
975
- rõ_thật
976
- rồi
977
- rồi_đây
978
- rồi_nữa
979
- rồi_ra
980
- rồi_sao
981
- rồi_sau
982
- rồi_tay
983
- rồi_thì
984
- rồi_xem
985
- rón_rén
986
- rốt_cục
987
- rốt_cuộc
988
- rứa
989
- rút_cục
990
- sa_sả
991
- sang
992
- sang_năm
993
- sáng_rõ
994
- sang_sáng
995
- sang_tay
996
- sáng_thế
997
- sáng_ý
998
- sao_bản
999
- sao_bằng
1000
- sao_cho
1001
- sao_đang
1002
- sao_vậy
1003
- sắp
1004
- sắp_đặt
1005
- sất
1006
- sau_nữa
1007
- sau_sau
1008
- sẽ
1009
- sẽ_biết
1010
- sẽ_hay
1011
-
1012
- sì_sì
1013
- so
1014
- số_cho_biết
1015
- số_cụ_thể
1016
- sở_dĩ
1017
- số_là
1018
- số_loại
1019
- số_người
1020
- số_phần
1021
- số_thiếu
1022
- so_với
1023
- song_le
1024
- sốt_sột
1025
- sự_thế
1026
- tà_tà
1027
- tại
1028
- tại_đó
1029
- tại_lòng
1030
- tấm
1031
- tấm_bản
1032
- tấm_các
1033
- tăm_tắp
1034
- tấn
1035
- tấn_tới
1036
- tăng
1037
- tăng_cấp
1038
- tăng_chúng
1039
- tăng_thế
1040
- tăng_thêm
1041
- tanh
1042
- tanh_tanh
1043
- tạo
1044
- tạo_cơ_hội
1045
- tạo_điều_kiện
1046
- tạo_nên
1047
- tạo_ra
1048
- tạo_ý
1049
- tắp
1050
- tắp_lự
1051
- tắp_tắp
1052
- tập_trung
1053
- tất_tần_tật
1054
- tất_tật
1055
- tất_thảy
1056
- tay_quay
1057
- tên_chính
1058
- tên_họ
1059
- tên_tự
1060
- tênh
1061
- tênh_tênh
1062
- thà
1063
- tha_hồ
1064
- tha_hồ_ăn
1065
- tha_hồ_chơi
1066
- thà_là
1067
- thà_rằng
1068
- thái_quá
1069
- thậm
1070
- thậm_cấp
1071
- thậm_chí
1072
- thậm_từ
1073
- than_ôi
1074
- thanh
1075
- thanh_ba
1076
- thanh_chuyển
1077
- thanh_điểm
1078
- thanh_điều_kiện
1079
- thanh_không
1080
- thành_ra
1081
- thanh_thanh
1082
- thành_thử
1083
- thanh_tính
1084
- thảo_hèn
1085
- thảo_nào
1086
- thấp
1087
- thấp_cơ
1088
- thấp_thỏm
1089
- thấp_xuống
1090
- thật
1091
- thật_chắc
1092
- thật_là
1093
- thật_lực
1094
- thật_quả
1095
- thật_ra
1096
- thật_sự
1097
- thật_thà
1098
- thật_tốt
1099
- thật_vậy
1100
- thấy
1101
- thẩy
1102
- thay_đổi
1103
- thay_đổi_tình_trạng
1104
- thấy_tháng
1105
- thế
1106
- thế_à
1107
- thế_chuẩn_bị
1108
- thế_đó
1109
- thế_là
1110
- thế_lại
1111
- thế_mà
1112
- thế_nào
1113
- thế_nên
1114
- thế_ra
1115
- thế_sự
1116
- thế_thế
1117
- thế_thì
1118
- thế_thôi
1119
- thế_thường
1120
- thếch
1121
- thêm
1122
- thêm_chuyện
1123
- thêm_giờ
1124
- thêm_vào
1125
- theo
1126
- theo_bước
1127
- theo_như
1128
- theo_tin
1129
- thì
1130
- thì_giờ
1131
- thì_là
1132
- thì_phải
1133
- thì_ra
1134
- thi_thoảng
1135
- thì_thôi
1136
- thích
1137
- thích_cứ
1138
- thích_thuộc
1139
- thích_tự
1140
- thích_ý
1141
- thiếu
1142
- thiếu_điểm
1143
- thiếu_gì
1144
- thím
1145
- thình_lình
1146
- thỉnh_thoảng
1147
- thoắt
1148
- thoạt
1149
- thoạt_nghe
1150
- thoạt_nhiên
1151
- thốc
1152
- thộc
1153
- thốc_tháo
1154
- thôi
1155
- thời_điểm
1156
- thời_gian
1157
- thời_gian_sử_dụng
1158
- thời_gian_tính
1159
- thôi_việc
1160
- thỏm
1161
- thốt
1162
- thốt_nhiên
1163
- thốt_nói
1164
- thốt_thôi
1165
- thứ
1166
- thứ_bản
1167
- thứ_đến
1168
- thửa
1169
- thuần
1170
- thuần_ái
1171
- thực_hiện
1172
- thực_hiện_đúng
1173
- thục_mạng
1174
- thực_ra
1175
- thực_sự
1176
- thực_tế
1177
- thực_vậy
1178
- thúng_thắng
1179
- thuộc
1180
- thuộc_bài
1181
- thuộc_cách
1182
- thuộc_lại
1183
- thuộc_từ
1184
- thường
1185
- thường_bị
1186
- thường_đến
1187
- thường_hay
1188
- thường_khi
1189
- thương_ôi
1190
- thường_số
1191
- thường_sự
1192
- thường_tại
1193
- thường_thôi
1194
- thường_thường
1195
- thường_tính
1196
- thường_xuất_hiện
1197
- tiện_thể
1198
- tiếp_đó
1199
- tiếp_theo
1200
- tiếp_tục
1201
- tìm_bạn
1202
- tìm_cách
1203
- tìm_hiểu
1204
- tìm_việc
1205
- tin
1206
- tính_căn
1207
- tính_phỏng
1208
- tít_mù
1209
- tỏ_ra
1210
- tò_te
1211
- tỏ_vẻ
1212
- toà
1213
- tốc_tả
1214
- toé_khói
1215
- toẹt
1216
- tôi
1217
- tôi_con
1218
- tới_gần
1219
- tới_mức
1220
- tới_nơi
1221
- tới_thì
1222
- tối_ư
1223
- tông_tốc
1224
- tọt
1225
- tột
1226
- tốt_bạn
1227
- tốt_bộ
1228
- tột_cùng
1229
- tốt_mối
1230
- tốt_ngày
1231
- trả_trước
1232
- trển
1233
- trên_bộ
1234
- trếu_tráo
1235
- trệu_trạo
1236
- trở_thành
1237
- trời_đất_ơi
1238
- trong
1239
- trỏng
1240
- trong_ấy
1241
- trong_đó
1242
- trong_khi
1243
- trong_lúc
1244
- trong_mình
1245
- trong_này
1246
- trong_vùng
1247
- trừ_phi
1248
- trực_tiếp_làm
1249
- trước_khi
1250
- trước_kia
1251
- trước_nay
1252
- trước_ngày
1253
- trước_nhất
1254
- trước_sau
1255
- trước_tiên
1256
- trước_tuổi
1257
- từ
1258
- tự
1259
- tự_ăn
1260
- từ_căn
1261
- tự_cao
1262
- từ_điều
1263
- từ_đó
1264
- từ_giờ
1265
- từ_khi
1266
- tự_khi
1267
- từ_loại
1268
- tự_lượng
1269
- từ_tại
1270
- từ_thế
1271
- tù_tì
1272
- tự_tính
1273
- từ_từ
1274
- tự_vì
1275
- tự_ý
1276
- tức_thì
1277
- tức_tốc
1278
- từng_nhà
1279
- từng_thời_gian
1280
- tuổi_tôi
1281
- tuốt_luốt
1282
- tuốt_tuồn_tuột
1283
- tuốt_tuột
1284
- tựu_trung
1285
- tuy
1286
- tuy_có
1287
- tuy_đã
1288
- tuy_là
1289
- tuy_nhiên
1290
- tuy_rằng
1291
- tuy_thế
1292
- tuy_vậy
1293
- tuyệt_nhiên
1294
- ư
1295
-
1296
-
1297
- ừ_ào
1298
- ứ_hự
1299
- ừ_nhé
1300
- ừ_thì
1301
- ứ_ừ
1302
- ừ_ừ
1303
- ủa
1304
- úi
1305
- úi_chà
1306
- úi_dào
1307
-
1308
- vả_chăng
1309
- vả_lại
1310
- vẫn
1311
- vấn_đề
1312
- vấn_đề_quan_trọng
1313
- vạn_nhất
1314
- vẫn_thế
1315
- vâng
1316
- vâng_chịu
1317
- vâng_dạ
1318
- văng_tê
1319
- vâng_vâng
1320
- vâng_ý
1321
- vào_vùng
1322
- vậy
1323
- vậy_là
1324
- vậy_mà
1325
- vậy_nên
1326
- vậy_ra
1327
- vậy_thì
1328
- vậy_ư
1329
- về
1330
- về_không
1331
- về_nước
1332
- về_phần
1333
- về_sau
1334
- về_tay
1335
- veo
1336
- vèo
1337
- veo_veo
1338
- vèo_vèo
1339
- ví_bằng
1340
- vì_chưng
1341
- ví_dù
1342
- ví_phỏng
1343
- vì_rằng
1344
- vị_tất
1345
- ví_thử
1346
- vì_vậy
1347
- vô_hình_trung
1348
- với
1349
- với_lại
1350
- với_nhau
1351
- vốn_dĩ
1352
- vung_tán_tàn
1353
- vung_tàn_tán
1354
- vung_thiên_địa
1355
- vụt
1356
- xa_tanh
1357
- xa_tắp
1358
- xa_xả
1359
- xăm_xăm
1360
- xăm_xắm
1361
- xăm_xúi
1362
- xảy_ra
1363
- xem
1364
- xem_lại
1365
- xem_ra
1366
- xem_số
1367
- xềnh_xệch
1368
- xệp
1369
- xiết_bao
1370
- xin
1371
- xin_gặp
1372
- xin_vâng
1373
- xoẳn
1374
- xoành_xoạch
1375
- xoét
1376
- xoẹt
1377
- xon_xón
1378
- xuất_kì_bất_ý
1379
- xuất_kỳ_bất_ý
1380
- xuể
1381
- ý
1382
- ý_chừng
1383
- ý_da
1384
- ý_hoặc
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
streamlit_app.py / pages/punctuations.txt DELETED
@@ -1,53 +0,0 @@
1
- ~
2
- !
3
- @
4
- #
5
- $
6
- %
7
- ^
8
- &
9
- *
10
- (
11
- )
12
- _
13
- +
14
- =
15
- -
16
- `
17
- {
18
- }
19
- [
20
- ]
21
- :
22
- "
23
-
24
-
25
- ;
26
- '
27
- <
28
- >
29
- ?
30
- ,
31
- .
32
- /
33
- ...
34
- \
35
- |
36
-
37
-
38
- «
39
- »
40
- `
41
- ´
42
- ¨
43
- ¯
44
-
45
-
46
-
47
-
48
-
49
-
50
-
51
-
52
- ``
53
- ''
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
streamlit_app.py /Homepage.py DELETED
@@ -1,49 +0,0 @@
1
- import streamlit as st
2
- from st_pages import Page, show_pages
3
-
4
- st.set_page_config(page_title="Information Retrieval", page_icon="🏠")
5
-
6
- show_pages(
7
- [
8
- Page("streamlit_app.py/Homepage.py", "Home", "🏠"),
9
- Page(
10
- "streamlit_app.py/pages/Information_Retrieval.py", "Information Retrieval", "📝"
11
- ),
12
- ]
13
- )
14
-
15
- st.title("Project in Text Mining and Application - Information Retrieval")
16
- st.markdown(
17
- """
18
- **Team members:**
19
- | Student ID | Full Name | Email |
20
- | ---------- | ------------------------ | ------------------------------ |
21
- | 1712603 | Lê Quang Nam | [email protected] |
22
- | 19120582 | Lê Nhựt Minh | [email protected] |
23
- | 19120600 | Bùi Nguyên Nghĩa | [email protected] |
24
- | 21120198 | Nguyễn Thị Lan Anh | [email protected] |
25
- """
26
- )
27
-
28
- st.header("The Need for Information Retrieval")
29
- st.markdown(
30
- """
31
- The task of classifying whether a question and a context paragraph are related to
32
- each other is based on two main steps: word embedding and classifier. Both of these
33
- steps together constitute the process of analyzing and evaluating the relationship
34
- between the question and the context.
35
- """
36
- )
37
-
38
- st.header("Technology used")
39
- st.markdown(
40
- """
41
- The ELECTRA model, specifically the "google/electra-small-discriminator" used here,
42
- is a deep learning model in the field of natural language processing (NLP) developed
43
- by Google. This model is an intelligent variation of the supervised learning model
44
- based on the Transformer architecture, designed to understand and process natural language efficiently.
45
- For this text classification task, we choose two related classes: ElectraTokenizer and
46
- FElectraForSequenceClassification to implement.
47
- """
48
- )
49
-