jvedsaqib commited on
Commit
6ed3479
·
verified ·
1 Parent(s): 80235ac

Create app.py

Browse files
Files changed (1) hide show
  1. app.py +111 -0
app.py ADDED
@@ -0,0 +1,111 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import numpy as np
2
+ import torch
3
+
4
+ if torch.cuda.is_available():
5
+ device = torch.device("cuda")
6
+ print('We will use the GPU:', torch.cuda.get_device_name(0))
7
+ else:
8
+ device = torch.device("cpu")
9
+ print('No GPU available, using the CPU instead.')
10
+
11
+ import numpy as np
12
+ import gradio as gr
13
+ from transformers import BertTokenizer, AutoTokenizer
14
+ from torch.utils.data import TensorDataset, random_split
15
+ from torch.utils.data import DataLoader, RandomSampler, SequentialSampler
16
+ from transformers import BertForSequenceClassification, AdamW, BertConfig
17
+ import random
18
+ tokenizer = AutoTokenizer.from_pretrained('armansakif/bengali-fake-news')
19
+
20
+ model = BertForSequenceClassification.from_pretrained(
21
+ "armansakif/bengali-fake-news", # Use the 12-layer BERT model, with an uncased vocab.
22
+ num_labels = 2, # The number of output labels--2 for binary classification.
23
+ # You can increase this for multi-class tasks.
24
+ output_attentions = False, # Whether the model returns attentions weights.
25
+ output_hidden_states = False, # Whether the model returns all hidden-states.
26
+ )
27
+ # model.cuda()
28
+
29
+ def classify_news(news):
30
+ label_list = []
31
+ input_ids = []
32
+ attention_masks = []
33
+ sent = news
34
+ label_list.append(0)
35
+ encoded_dict = tokenizer.encode_plus(
36
+ sent, # Sentence to encode.
37
+ add_special_tokens = True, # Add '[CLS]' and '[SEP]'
38
+ max_length = 512, # Pad & truncate all sentences.
39
+ pad_to_max_length = True,
40
+ return_attention_mask = True, # Construct attn. masks.
41
+ truncation = True,
42
+ return_tensors = 'pt', # Return pytorch tensors.
43
+ )
44
+
45
+ input_ids.append(encoded_dict['input_ids'])
46
+
47
+ attention_masks.append(encoded_dict['attention_mask'])
48
+
49
+ # Convert the lists into tensors.
50
+ input_ids = torch.cat(input_ids, dim=0)
51
+ attention_masks = torch.cat(attention_masks, dim=0)
52
+ labels = torch.tensor(label_list)
53
+
54
+ testdataset = TensorDataset(input_ids, attention_masks, labels)
55
+
56
+ test_dataloader = DataLoader(
57
+ testdataset, # The validation samples.
58
+ sampler = SequentialSampler(testdataset), # Pull out batches sequentially.
59
+ batch_size = 16 # Evaluate with this batch size.
60
+ )
61
+
62
+ model.eval()
63
+
64
+ y_prob = []
65
+
66
+ for batch in test_dataloader:
67
+
68
+ b_input_ids = batch[0].to(device)
69
+ b_input_mask = batch[1].to(device)
70
+ b_labels = batch[2].to(device)
71
+
72
+ with torch.no_grad():
73
+
74
+ outputs = model(b_input_ids,
75
+ token_type_ids=None,
76
+ attention_mask=b_input_mask,
77
+ labels=b_labels)
78
+ loss = outputs[0]
79
+ logits = outputs[1]
80
+
81
+ # probability in percent code
82
+ prediction_probs = torch.nn.functional.softmax(logits)
83
+ y_prob.extend(prediction_probs.detach().cpu().numpy())
84
+
85
+ print(y_prob[0][0])
86
+ print(y_prob[0][1])
87
+ #-------------------------------------------------------------
88
+
89
+ _, prediction = torch.max(logits, dim=1)
90
+ prediction = prediction.cpu().detach().numpy()
91
+ # targets = b_labels.cpu().detach().numpy()
92
+
93
+ result = 'Fake News'
94
+ if prediction[0] :
95
+ result = 'Authentic News'
96
+ print(result)
97
+ labels = ['fake', 'authentic']
98
+
99
+ return {labels[i]: float(y_prob[0][i]) for i in range(2)}
100
+ demo = gr.Interface(
101
+ fn=classify_news,
102
+ inputs=gr.Textbox(lines=10, placeholder="News here..."),
103
+ # outputs=[gr.Textbox(label='class'), gr.Textbox(label='prbability')],
104
+ outputs = gr.outputs.Label(num_top_classes=2),
105
+ examples = [
106
+ ['খেলা হবে - বাংলাদেশের এক বিশেষ ডায়লগ। এই ডায়লগ সবার আগে কে বলেছিলেন তার নাম বাংলার সবাই জানে। তবু যারা জানেন না তাদের সুবিধার্থে, নারায়ণগঞ্জের সংসদ সদস্য শামীম ওসমান একবার তার ভাষণে এই খেলা হবে ডায়ালগটা ব্যবহার করেন। তার ভাইরাল হওয়া ভাষণ ছিল, ২ মিনিট ১১ সেকেন্ডের, সেই ভাষণে তিনি ‘খেলা হবে’ শব্দ ব্যবহার করেছেন মোট ৩ বার! তাও শরীর ঝাঁকিয়ে এবং গলার সর্বস্বক্তি দিয়ে। তার বলা এই ডায়লগ বাংলাদেশের বুকেই থেকে যায়নি। উড়তে উড়তে গিয়ে ঠেকেছিল ভারতের বুকেও। বলা যায়, ���াংলাদেশের থেকে বেশি জনপ্রিয়তাই পেয়ে বসেছিল ভারতে। ভারতের পশ্চিমবঙ্গের সবচেয়ে জনপ্রিয় স্লোগান হচ্ছে এই খেলা হবে। শুধু স্লোগানেই থেমে থাকেনি আমাদের -খেলা হবে। ছড়িয়ে গেছে মুভিতেও। আলিয়া ভাট ও রনবীর সিং অভিনীত রকি ওর রাণী মুভিতেও ব্যবহার করা হয়েছে খেলা হবে ডায়লগ। মুভির নায়িকা স্বয়ং আলিয়া ভাটই একটা সিনে বলেছেন, খেলা হবে। এমনকি তিনি এটা বাংলাতেই বলেছেন!' ],
107
+ [ " সারা দেশে ডেঙ্গু পরিস্থিতি দিন দিন আরও ভয়াবহ রূপ নিচ্ছে। ডেঙ্গু জ্বরে আক্রান্ত হয়ে গত ২৪ ঘণ্টায় সারাদেশে ৮ জনের মৃত্যু হয়েছে। এ নিয়ে চলতি বছর ডেঙ্গু আক্রান্ত হয়ে মৃতের সংখ্যা দাঁড়িয়েছে ২৪৭ জনে। এছাড়া গত ২৪ ঘণ্টায় নতুন করে হাসপাতালে ভর্তি হয়েছেন ২ হাজার ৭৩১ জন, যা একদিনে এ বছরের মধ্যে সর্বোচ্চ। \n স্বাস্থ্য অধিদপ্তর জানায়, ডেঙ্গু আক্রান্ত হয়ে দেশের বিভিন্ন সরকারি-বেসরকারি হাসপাতালে ভর্তি হয়েছেন দুই হাজার ৭৩১ জন। তাদের মধ্যে ঢাকার বাসিন্দা এক হাজার ১৮৪ জন ও ঢাকার বাইরের এক হাজার ৫৪৭ জন। ২৪ ঘণ্টায় মৃত আটজনের মধ্যে চারজন ঢাকার ও চারজন ঢাকার বাইরের বাসিন্দা বলে জানায় স্বাস্থ্য অধিদপ্তর। \n চলতি বছরের ১ জানুয়ারি থেকে ৩০ জুলাই পর্যন্ত ডেঙ্গু আক্রান্ত হয়েছেন ৪৯ হাজার ১৩৮ জন। তাদের মধ্যে ঢাকার বাসিন্দা ২৮ হাজার ৩২ জন। ঢাকার বাইরের হাসপাতালগুলোতে ভর্তি হয়েছেন ২১ হাজার ১০৬ জন। একই সময়ে হাসপাতাল থেকে ছাড়পত্র পেয়েছেন ৩৯ হাজার ৪৭৩ জন। তাদের মধ্যে ঢাকার বাসিন্দা ২২ হাজার ৬৯৩ জন এবং ঢাকার বাইরের ১৬ হাজার ৭৮০ জন। \nউল্লেখ্য, ২০২২ সালে ডেঙ্গুতে দেশের ইতিহাসের সর্বোচ্চ ২৮১ জন মারা যান। একই সঙ্গে আলোচ্য বছরে ডেঙ্গু আক্রান্ত হয়ে হাসপাতালে ভর্তি হন ৬২ হাজার ৩৮২ জন। ২০২১ সালে সারাদেশে ডেঙ্গু আক্রান্ত হন ২৮ হাজার ৪২৯ জন। একই বছর দেশব্যাপী ডেঙ্গু আক্রান্ত হয়ে ১০৫ জনের মৃত্যু হয়েছিল। " ]
108
+
109
+ ]
110
+ )
111
+ demo.launch(inline=False)