Spaces:

KIMOSSINO
/

hashtags

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 8, 2024

Commit

472c950

verified ·

1 Parent(s): c7569af

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -93

app.py CHANGED Viewed

@@ -1,114 +1,76 @@
 import gradio as gr
-import pandas as pd
 from bs4 import BeautifulSoup
 from collections import Counter
-from io import BytesIO
-# دالة لتحليل البيانات واستخراج العناوين والهاشتاغات
-def analyze_tiktok_data(file, min_frequency):
     try:
-        # قراءة محتوى الملف
-        content = file.read().decode('utf-8') if isinstance(file.read(), bytes) else file.read()
-        # تحليل HTML باستخدام BeautifulSoup
-        soup = BeautifulSoup(content, 'html.parser')
-        desc_containers = soup.find_all('div', class_=lambda x: x and 'DivDesContainer' in x)
-        if not desc_containers:
-            return "لم يتم العثور على بيانات متطابقة", None
-        # استخراج البيانات
-        data = []
-        hashtags_counter = Counter()
-        for container in desc_containers[:500]:
-            title = container.get('aria-label', 'بدون عنوان')
-            hashtags = [
-                tag.get_text(strip=True) for tag in container.find_all(['a', 'span'])
-                if tag.get_text(strip=True).startswith('#')
-            ]
-            hashtags_counter.update(hashtags)
-            data.append({"العنوان": title, "الهاشتاغات": ", ".join(hashtags)})
-        # إنشاء DataFrame للعناوين والهاشتاغات
-        df_titles = pd.DataFrame(data)
-        # تصفية الهاشتاغات حسب التكرار
-        df_hashtags = pd.DataFrame(
-            [(tag, count) for tag, count in hashtags_counter.items() if count >= min_frequency],
-            columns=["الهاشتاغ", "عدد التكرار"]
-        ).sort_values(by="عدد التكرار", ascending=False)
-        return df_titles, df_hashtags
     except Exception as e:
-        return f"حدث خطأ أثناء التحليل: {str(e)}", None
 # إنشاء واجهة Gradio
 def gradio_interface():
-    with gr.Blocks(css="""
-        .container {
-            max-width: 800px;
-            margin: auto;
-            padding: 20px;
-        }
-        .btn-primary {
-            background-color: #4CAF50;
-            color: white;
-        }
-        .table {
-            width: 100%;
-            border-collapse: collapse;
-            margin-bottom: 20px;
-        }
-        .table th, .table td {
-            border: 1px solid #ddd;
-            padding: 8px;
-        }
-        .table th {
-            background-color: #f2f2f2;
-            text-align: left;
-        }
-    """) as demo:
-        gr.Markdown("## مستخرج الهاشتاغات والعناوين من TikTok 🏷️", elem_classes=["container"])
-        with gr.Row(elem_classes=["container"]):
-            file_input = gr.File(label="ارفع ملف HTML")
             min_freq_slider = gr.Slider(
-                minimum=1, maximum=50, value=1, label="الحد الأدنى لتكرار الهاشتاغ"
             )
-        analyze_btn = gr.Button("تحليل البيانات", elem_classes=["btn-primary"])
-        with gr.Tabs(elem_classes=["container"]):
-            with gr.TabItem("العناوين"):
-                titles_output = gr.HTML(label="العناوين")
-            with gr.TabItem("الهاشتاغات"):
-                hashtags_output = gr.HTML(label="الهاشتاغات")
-                with gr.Row():
-                    copy_btn = gr.Button("نسخ الهاشتاغات", elem_classes=["btn-primary"])
-                    hashtags_textbox = gr.Textbox(
-                        label="نسخ الهاشتاغات هنا", visible=False, interactive=False
-                    )
-        # عند الضغط على زر التحليل
         analyze_btn.click(
-            fn=analyze_tiktok_data,
             inputs=[file_input, min_freq_slider],
             outputs=[titles_output, hashtags_output],
         )
-        # نسخ الهاشتاغات إلى مربع النص
-        copy_btn.click(
-            fn=lambda df_titles, df_hashtags: "\n".join(df_hashtags["الهاشتاغ"].tolist()) if df_hashtags is not None else "",
-            inputs=[file_input, min_freq_slider],
-            outputs=hashtags_textbox,
-        )
-        hashtags_textbox.change(visible=True)
     return demo
 # تشغيل التطبيق
-demo = gradio_interface()
-demo.launch()

 import gradio as gr
 from bs4 import BeautifulSoup
 from collections import Counter
+import re
+# دالة استخراج العناوين والهاشتاغات من ملف HTML
+def extract_titles_and_hashtags(file, min_frequency=1):
+    if not file:
+        return "❌ لم يتم رفع ملف", "❌ لم يتم رفع ملف"
+    # قراءة محتوى الملف
     try:
+        content = file.read()
+        soup = BeautifulSoup(content, "html.parser")
+        # استخراج العناوين من عناصر HTML
+        titles = [title.get_text() for title in soup.find_all("title")]
+        titles_output = "\n".join(titles) if titles else "❌ لم يتم العثور على عناوين"
+        # استخراج النصوص المحتوية على هاشتاغات
+        text = soup.get_text()
+        hashtags = re.findall(r"#\w+", text)
+        # حساب تكرار الهاشتاغات وتصفيتها بناءً على التكرار
+        hashtags_counter = Counter(hashtags)
+        filtered_hashtags = [
+            f"{tag}: {count}" for tag, count in hashtags_counter.items() if count >= min_frequency
+        ]
+        hashtags_output = "\n".join(filtered_hashtags) if filtered_hashtags else "❌ لا توجد هاشتاغات متكررة"
+        return titles_output, hashtags_output
     except Exception as e:
+        return f"❌ خطأ أثناء معالجة الملف: {str(e)}", "❌ خطأ أثناء معالجة الملف"
 # إنشاء واجهة Gradio
 def gradio_interface():
+    with gr.Blocks() as demo:
+        gr.Markdown("## 🏷️ محلل العناوين والهاشتاغات المتقدم")
+        with gr.Row():
+            file_input = gr.File(label="📂 رفع ملف HTML", file_types=[".html"])
             min_freq_slider = gr.Slider(
+                minimum=1, maximum=50, value=1, step=1,
+                label="📊 الحد الأدنى لتكرار الهاشتاغ"
+            )
+        with gr.Row():
+            analyze_btn = gr.Button("تحليل البيانات", variant="primary")
+        with gr.Row():
+            titles_output = gr.Textbox(
+                label="📜 العناوين المستخرجة",
+                lines=10,
+                interactive=False
+            )
+            hashtags_output = gr.Textbox(
+                label="🏷️ الهاشتاغات المستخرجة",
+                lines=10,
+                interactive=False
             )
         analyze_btn.click(
+            fn=extract_titles_and_hashtags,
             inputs=[file_input, min_freq_slider],
             outputs=[titles_output, hashtags_output],
         )
     return demo
 # تشغيل التطبيق
+if __name__ == "__main__":
+    demo = gradio_interface()
+    demo.launch()