Spaces:

methodya
/

gemmaphilo

Running

App Files Files Community

methodya commited on Jan 30

Commit

9f60a6d

verified ·

1 Parent(s): d4cb9a4

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -41

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import gradio as gr
-from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import os
 from huggingface_hub import login
@@ -7,63 +7,79 @@ from huggingface_hub import login
 # تسجيل الدخول
 login(token=os.environ.get('HUGGING_FACE_HUB_TOKEN'))
-# تهيئة النموذج
-model_name = "google/gemma-2b-it"
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name)
 device = 'cuda' if torch.cuda.is_available() else 'cpu'
-model = model.to(device)
-def summarize(text, max_length=150, num_beams=7, length_penalty=0.8):
-    prompt = f"""لخص النص التالي مع التركيز على المفاهيم الفلسفية الأساسية:
-النص:
-{text}
-قدم التلخيص بالشكل التالي:
-1- الفكرة المحورية (باختصار)
-2- المفاهيم الرئيسية
-3- العلاقات بين الشخصيات والأفكار
 """
-    inputs = tokenizer(
-        prompt,
-        return_tensors="pt",
-        max_length=2048,
-        truncation=True
-    ).to(device)
-    outputs = model.generate(
-        **inputs,
-        max_length=max_length,
-        num_beams=num_beams,
-        length_penalty=length_penalty,
-        early_stopping=True
-    )
-    return tokenizer.decode(outputs[0], skip_special_tokens=True)
-# CSS لتحسين المظهر
 css = """
 .gradio-container {background: #f9fafb !important}
-.rtl-text {
-    direction: rtl;
-    text-align: right;
-    font-family: Arial, sans-serif;
-    line-height: 1.6;
-}
 """
 interface = gr.Interface(
-    fn=summarize,
     inputs=[
         gr.Textbox(lines=8, label="النص", elem_classes="rtl-text"),
         gr.Slider(50, 250, value=150, label="طول الملخص"),
-        gr.Slider(1, 10, value=7, step=1, label="دقة التلخيص (num_beams)"),
         gr.Slider(0.1, 2.0, value=0.8, step=0.1, label="معامل الطول")
     ],
     outputs=gr.Textbox(label="الملخص", elem_classes="rtl-text"),
-    title="ملخص النصوص الفلسفية",
     theme=gr.themes.Soft(),
     css=css
 )

 import gradio as gr
+from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, AutoModelForCausalLM
 import torch
 import os
 from huggingface_hub import login
 # تسجيل الدخول
 login(token=os.environ.get('HUGGING_FACE_HUB_TOKEN'))
+# تهيئة النموذج الأول (المتخصص)
+specialist_model = AutoModelForSeq2SeqLM.from_pretrained("methodya/arabic-summarizer-philosophy")
+specialist_tokenizer = AutoTokenizer.from_pretrained("methodya/arabic-summarizer-philosophy")
+# تهيئة النموذج الثاني (Gemma)
+gemma_model = AutoModelForCausalLM.from_pretrained("google/gemma-2b-it")
+gemma_tokenizer = AutoTokenizer.from_pretrained("google/gemma-2b-it")
 device = 'cuda' if torch.cuda.is_available() else 'cpu'
+specialist_model = specialist_model.to(device)
+gemma_model = gemma_model.to(device)
+def generate_summary(text, use_pipeline=True, max_length=150, num_beams=7, length_penalty=0.8):
+    if use_pipeline:
+        # المرحلة الأولى: التلخيص بالنموذج المتخصص
+        inputs = specialist_tokenizer(text, return_tensors="pt", max_length=2048, truncation=True).to(device)
+        specialist_outputs = specialist_model.generate(
+            **inputs,
+            max_length=max_length,
+            num_beams=num_beams,
+            length_penalty=length_penalty,
+            early_stopping=True
+        )
+        first_summary = specialist_tokenizer.decode(specialist_outputs[0], skip_special_tokens=True)
+        # المرحلة الثانية: التحسين باستخدام Gemma
+        prompt = f"""راجع وحسن هذا الملخص مع الحفاظ على النقاط الرئيسية:
+الملخص الأولي:
+{first_summary}
+قدم التحسين بالشكل التالي:
+1. الفكرة المحورية
+2. النقاط الرئيسية
+3. العلاقات المهمة
 """
+        inputs = gemma_tokenizer(prompt, return_tensors="pt", max_length=512, truncation=True).to(device)
+        final_outputs = gemma_model.generate(
+            **inputs,
+            max_length=max_length,
+            temperature=0.3,
+            do_sample=False
+        )
+        return gemma_tokenizer.decode(final_outputs[0], skip_special_tokens=True)
+    else:
+        # استخدام النموذج المتخصص فقط
+        inputs = specialist_tokenizer(text, return_tensors="pt", max_length=2048, truncation=True).to(device)
+        outputs = specialist_model.generate(
+            **inputs,
+            max_length=max_length,
+            num_beams=num_beams,
+            length_penalty=length_penalty,
+            early_stopping=True
+        )
+        return specialist_tokenizer.decode(outputs[0], skip_special_tokens=True)
 css = """
 .gradio-container {background: #f9fafb !important}
+.rtl-text { direction: rtl; text-align: right; }
 """
 interface = gr.Interface(
+    fn=generate_summary,
     inputs=[
         gr.Textbox(lines=8, label="النص", elem_classes="rtl-text"),
+        gr.Checkbox(label="استخدام المعالجة المزدوجة", value=True),
         gr.Slider(50, 250, value=150, label="طول الملخص"),
+        gr.Slider(1, 10, value=7, step=1, label="دقة التلخيص"),
         gr.Slider(0.1, 2.0, value=0.8, step=0.1, label="معامل الطول")
     ],
     outputs=gr.Textbox(label="الملخص", elem_classes="rtl-text"),
+    title="ملخص النصوص الفلسفية (نظام مدمج)",
     theme=gr.themes.Soft(),
     css=css
 )