Spaces:

tacab
/

TACAB

Sleeping

App Files Files Community

zakihassan04 commited on Jul 16

Commit

626a5ef

verified ·

1 Parent(s): 972c23f

Create app.py

Browse files

Files changed (1) hide show

app.py +66 -0

app.py ADDED Viewed

	@@ -0,0 +1,66 @@

+import gradio as gr
+import json
+import torch
+from transformers import GPT2LMHeadModel, GPT2Tokenizer
+from sentence_transformers import SentenceTransformer, util
+# Load dataset
+with open("data/gpt2_ready_filtered.jsonl", "r", encoding="utf-8") as f:
+    data = [json.loads(line) for line in f]
+texts = [item["text"] for item in data]
+# SomaliQA class
+class SomaliQA:
+    def __init__(self, dataset_texts):
+        self.texts = dataset_texts
+        self.embedder = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")
+        self.embeddings = self.embedder.encode(self.texts, convert_to_tensor=True)
+        self.tokenizer = GPT2Tokenizer.from_pretrained("zakihassan04/gpt2-finetuned-somali")
+        self.model = GPT2LMHeadModel.from_pretrained("zakihassan04/gpt2-finetuned-somali")
+        self.tokenizer.pad_token = self.tokenizer.eos_token
+    def extract_qa(self, text):
+        parts = text.split("\nJawaab:")
+        if len(parts) == 2:
+            return parts[0].replace("Su'aal:", "").strip(), parts[1].strip()
+        return None, None
+    def answer(self, user_question):
+        if not user_question.strip().endswith("?"):
+            user_question += "?"
+        cleaned_question = user_question.strip().rstrip("?")
+        # Step 1: Exact match
+        for text in self.texts:
+            su_aal, jawaab = self.extract_qa(text)
+            if su_aal and cleaned_question.lower() == su_aal.lower():
+                return jawaab  # ✅ Return exact answer from dataset
+        # Step 2: Semantic match
+        user_emb = self.embedder.encode(cleaned_question, convert_to_tensor=True)
+        hits = util.semantic_search(user_emb, self.embeddings, top_k=1)
+        if hits and len(hits[0]) > 0:
+            idx = hits[0][0]['corpus_id']
+            su_aal, jawaab = self.extract_qa(self.texts[idx])
+            return jawaab  # ✅ Return answer from dataset (not generated)
+        return "Ma helin jawaab ku habboon su’aashaada."
+# Init model
+qa_system = SomaliQA(texts)
+# Gradio UI
+def qa_interface(question):
+    return qa_system.answer(question)
+# Gradio interface
+gr.Interface(
+    fn=qa_interface,
+    inputs="text",
+    outputs="text",
+    title="Somali QA Chatbot (Dataset-based)",
+    description="Weydii su’aal la xiriirta beeralayda — jawaabta waxa laga soo saaraa dataset-kaaga (GPT2 fine-tuned).",
+    theme="compact"
+).launch()