kittinan commited on
Commit
95ae33d
·
2 Parent(s): d1a7ba9 30daa32

Merge branch 'main' of https://huggingface.co/tupleblog/salim-classifier into main

Browse files
Files changed (1) hide show
  1. README.md +19 -7
README.md CHANGED
@@ -3,6 +3,8 @@ widget:
3
  - text: "รัฐรับผิดชอบทุกชีวิตไม่ได้หรอกคนให้บริการต้องจัดการเองถ้าจะเปิดผับบาร์"
4
  ---
5
 
 
 
6
  # Salim-Classifier
7
 
8
  **วัตถุประสงค์:** ทุกวันนี้หาเพื่อนที่รักชาติ ศาสนา พระมหากษัตริย์ รัฐบาลยากเหลือเกิน มีแต่พวกสามกีบ ควายแดงคอยจ้องจะทำร้าย
@@ -13,13 +15,17 @@ widget:
13
  สามารถลง `transfomers` จาก Huggingface และใช้งานโมเดลได้ดังต่อไปนี้
14
 
15
  ``` py
16
- from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
 
 
 
 
17
 
18
- # download model
19
  tokenizer = AutoTokenizer.from_pretrained("tupleblog/salim-classifier")
20
  model = AutoModelForSequenceClassification.from_pretrained("tupleblog/salim-classifier")
21
 
22
- # using pipeline
23
  classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
24
  text = "จิตไม่ปกติ วันๆคอยแต่ให้คนเสี้ยมทะเลาะกันด่ากัน คอยจ้องแต่จะเล่นงานรัฐบาล ความคดด้านลบ"
25
  classifier(text)
@@ -28,8 +34,8 @@ classifier(text)
28
 
29
  ## การเก็บข้อมูล
30
 
31
- เก็บข้อมูลจากเพจ Facebook ที่มีชาวสลิ่มเข้าไปคอมเม้น คัดเลือกชุดประโยคที่มีความยาวมากกว่า 50 ตัวอักษร
32
- และทำการ Annotate จากนั้นนำข้อมูลมาเทรนโมเดลด้วย WangchanBERTa (ข้อมูลอาจมีความ bias เนื่องจากทางทีมงานเป็นผู้เก็บข้อมูลเอง)
33
 
34
  ## ทดลองใช้งานผ่าน HuggingFace
35
 
@@ -43,6 +49,12 @@ classifier(text)
43
  - ถ้าไม่ชอบประชาธิปไตย จะไปใช้วิธีการปกครองแบบไหนหรอครับ แล้วแบบไหนถึงดีหรอ ผมไม่เข้าใจครับอดีตผ่านไปแล้ว ทำไมไม่มองที่อนาคตกันหละครับ
44
  - อีพวกสามกีบ`<pad>`
45
 
46
- สำหรับข้อความที่สั้นกว่า 50 ตัวอักษรแนะนำให้เติม `<pad>` ตามหลังข้อความ
 
 
 
 
47
 
48
- ทางทีมงานกำลังเขียนแอพพลิเคชั่นเพื่อให้สามารถนำไปใช้งานได้ง่ายยิ่งขึ้น
 
 
 
3
  - text: "รัฐรับผิดชอบทุกชีวิตไม่ได้หรอกคนให้บริการต้องจัดการเองถ้าจะเปิดผับบาร์"
4
  ---
5
 
6
+ ![Salim Word Cloud](https://raw.githubusercontent.com/tupleblog/salim-classifier/main/images/wordcloud.jpg)
7
+
8
  # Salim-Classifier
9
 
10
  **วัตถุประสงค์:** ทุกวันนี้หาเพื่อนที่รักชาติ ศาสนา พระมหากษัตริย์ รัฐบาลยากเหลือเกิน มีแต่พวกสามกีบ ควายแดงคอยจ้องจะทำร้าย
 
15
  สามารถลง `transfomers` จาก Huggingface และใช้งานโมเดลได้ดังต่อไปนี้
16
 
17
  ``` py
18
+ from transformers import (
19
+ AutoTokenizer,
20
+ AutoModelForSequenceClassification,
21
+ pipeline
22
+ )
23
 
24
+ # download model from hub
25
  tokenizer = AutoTokenizer.from_pretrained("tupleblog/salim-classifier")
26
  model = AutoModelForSequenceClassification.from_pretrained("tupleblog/salim-classifier")
27
 
28
+ # using pipeline to classify an input text
29
  classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
30
  text = "จิตไม่ปกติ วันๆคอยแต่ให้คนเสี้ยมทะเลาะกันด่ากัน คอยจ้องแต่จะเล่นงานรัฐบาล ความคดด้านลบ"
31
  classifier(text)
 
34
 
35
  ## การเก็บข้อมูล
36
 
37
+ สร้างข้อมูลตัวอย่างและทำการ Annotate จากนั้นนำข้อมูลมาเทรนโมเดลด้วย WangchanBERTa
38
+ โดยข้อมูลอาจมีความ bias เนื่องจากทางทีมงานเป็นผู้เก็บข้อมูลเอง
39
 
40
  ## ทดลองใช้งานผ่าน HuggingFace
41
 
 
49
  - ถ้าไม่ชอบประชาธิปไตย จะไปใช้วิธีการปกครองแบบไหนหรอครับ แล้วแบบไหนถึงดีหรอ ผมไม่เข้าใจครับอดีตผ่านไปแล้ว ทำไมไม่มองที่อนาคตกันหละครับ
50
  - อีพวกสามกีบ`<pad>`
51
 
52
+ สำหรับข้อความที่สั้นกว่า 50 ตัวอักษรแนะนำให้เติม `<pad>` ตามหลังข้อความเพื่อความแม่นยำที่สูงขึ้น
53
+
54
+ ## Performance
55
+
56
+ We report performance on 20% evaluation set (accuracy, precision, recall, F1-score macro) as follows:
57
 
58
+ | Accuracy | Precision | Recall | F1 |
59
+ | -------- | --------- | ------ | ------ |
60
+ | 75.54% | 75.13% | 74.78% | 74.92% |