Spaces:

KIMOSSINO
/

hashtags

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 8, 2024

Commit

c7569af

verified ·

1 Parent(s): b54a3b2

Update app.py

Browse files

Files changed (1) hide show

app.py +79 -82

app.py CHANGED Viewed

@@ -1,117 +1,114 @@
-from bs4 import BeautifulSoup
 import pandas as pd
 from collections import Counter
 from io import BytesIO
-from docx import Document
-import gradio as gr
-import re
-# تصنيف الهاشتاغات
-HASHTAG_CATEGORIES = {
-    'رياضة': ['كرة_قدم', 'رياضة', 'دوري', 'كرة_سلة', 'تنس', 'سباحة', 'كرة_يد', 'أولمبياد', 'مباراة'],
-    'موسيقى': ['موسيقى', 'غناء', 'مطرب', 'أغنية', 'فن', 'مزيكا', 'غنائي', 'كليب', 'ألبوم'],
-    'تكنولوجيا': ['تكنولوجيا', 'تقنية', 'برمجة', 'ذكاء_اصطناعي', 'تطبيقات', 'هاتف', 'كمبيوتر', 'انترنت'],
-}
-def classify_hashtag(hashtag):
-    """تصنيف الهاشتاغ حسب المجال"""
-    hashtag = hashtag.lower()
-    for category, keywords in HASHTAG_CATEGORIES.items():
-        if any(keyword in hashtag for keyword in keywords):
-            return category
-    return 'أخرى'
-def extract_keywords(title):
-    """استخراج الكلمات الرئيسية من العنوان"""
-    cleaned_title = re.sub(r'[^\u0600-\u06FF\s]', '', title)
-    words = cleaned_title.split()
-    return ', '.join([word for word in words if len(word) > 2][:5])
-def extract_data(file, min_frequency=1):
     try:
-        if hasattr(file, 'read'):
-            content = file.read().decode('utf-8') if isinstance(file.read(), bytes) else file.read()
-        else:
-            with open(file.name, 'r', encoding='utf-8') as f:
-                content = f.read()
         soup = BeautifulSoup(content, 'html.parser')
         desc_containers = soup.find_all('div', class_=lambda x: x and 'DivDesContainer' in x)
         data = []
         hashtags_counter = Counter()
         for container in desc_containers[:500]:
             title = container.get('aria-label', 'بدون عنوان')
-            keywords = extract_keywords(title)
-            hashtags = [tag.get_text(strip=True) for tag in container.find_all(['a', 'span']) if tag.get_text(strip=True).startswith('#')]
             hashtags_counter.update(hashtags)
-            data.append({"العنوان": title, "الكلمات الرئيسية": keywords, "الهاشتاغات": ", ".join(hashtags)})
         df_titles = pd.DataFrame(data)
         df_hashtags = pd.DataFrame(
-            [(tag, count, classify_hashtag(tag)) for tag, count in hashtags_counter.items() if count >= min_frequency],
-            columns=["الهاشتاغ", "عدد التكرار", "المجال"]
         ).sort_values(by="عدد التكرار", ascending=False)
         return df_titles, df_hashtags
     except Exception as e:
-        return f"حدث خطأ: {str(e)}", None
-def create_downloadable_files(df_titles, df_hashtags, format_choice):
-    buffer = BytesIO()
-    if format_choice == "Excel":
-        with pd.ExcelWriter(buffer, engine='xlsxwriter') as writer:
-            df_titles.to_excel(writer, index=False, sheet_name='Titles')
-            df_hashtags.to_excel(writer, index=False, sheet_name='Hashtags')
-    elif format_choice == "Word":
-        doc = Document()
-        doc.add_heading("العناوين والهاشتاغات", level=1)
-        for _, row in df_titles.iterrows():
-            doc.add_paragraph(f"العنوان: {row['العنوان']}\nالكلمات الرئيسية: {row['الكلمات الرئيسية']}\nالهاشتاغات: {row['الهاشتاغات']}\n")
-        doc.add_heading("الهاشتاغات وتكرارها", level=1)
-        for _, row in df_hashtags.iterrows():
-            doc.add_paragraph(f"{row['الهاشتاغ']}: {row['عدد التكرار']} ({row['المجال']})")
-        doc.save(buffer)
-    elif format_choice == "TXT":
-        content = "العناوين والهاشتاغات:\n"
-        for _, row in df_titles.iterrows():
-            content += f"العنوان: {row['العنوان']}\nالكلمات الرئيسية: {row['الكلمات الرئيسية']}\nالهاشتاغات: {row['الهاشتاغات']}\n\n"
-        content += "الهاشتاغات وتكرارها:\n"
-        for _, row in df_hashtags.iterrows():
-            content += f"{row['الهاشتاغ']}: {row['عدد التكرار']} ({row['المجال']})\n"
-        buffer.write(content.encode('utf-8'))
-    buffer.seek(0)
-    return buffer, f"data.{format_choice.lower()}"
 def gradio_interface():
-    with gr.Blocks() as demo:
-        gr.Markdown("## محلل TikTok المتقدم")
-        with gr.Row():
-            file_input = gr.File(label="رفع ملف HTML")
-            format_choice = gr.Radio(["Excel", "Word", "TXT"], label="تنسيق الملف", value="Excel")
-        analyze_btn = gr.Button("تحليل البيانات")
-        with gr.Tabs():
             with gr.TabItem("العناوين"):
                 titles_output = gr.HTML(label="العناوين")
             with gr.TabItem("الهاشتاغات"):
                 hashtags_output = gr.HTML(label="الهاشتاغات")
         analyze_btn.click(
-            fn=lambda file, fmt: extract_data(file) + (fmt,),
-            inputs=[file_input, format_choice],
-            outputs=[titles_output, hashtags_output]
         )
     return demo
 # تشغيل التطبيق
-app = gradio_interface()
-app.launch()

+import gradio as gr
 import pandas as pd
+from bs4 import BeautifulSoup
 from collections import Counter
 from io import BytesIO
+# دالة لتحليل البيانات واستخراج العناوين والهاشتاغات
+def analyze_tiktok_data(file, min_frequency):
     try:
+        # قراءة محتوى الملف
+        content = file.read().decode('utf-8') if isinstance(file.read(), bytes) else file.read()
+        # تحليل HTML باستخدام BeautifulSoup
         soup = BeautifulSoup(content, 'html.parser')
         desc_containers = soup.find_all('div', class_=lambda x: x and 'DivDesContainer' in x)
+        if not desc_containers:
+            return "لم يتم العثور على بيانات متطابقة", None
+        # استخراج البيانات
         data = []
         hashtags_counter = Counter()
         for container in desc_containers[:500]:
             title = container.get('aria-label', 'بدون عنوان')
+            hashtags = [
+                tag.get_text(strip=True) for tag in container.find_all(['a', 'span'])
+                if tag.get_text(strip=True).startswith('#')
+            ]
             hashtags_counter.update(hashtags)
+            data.append({"العنوان": title, "الهاشتاغات": ", ".join(hashtags)})
+        # إنشاء DataFrame للعناوين والهاشتاغات
         df_titles = pd.DataFrame(data)
+        # تصفية الهاشتاغات حسب التكرار
         df_hashtags = pd.DataFrame(
+            [(tag, count) for tag, count in hashtags_counter.items() if count >= min_frequency],
+            columns=["الهاشتاغ", "عدد التكرار"]
         ).sort_values(by="عدد التكرار", ascending=False)
         return df_titles, df_hashtags
     except Exception as e:
+        return f"حدث خطأ أثناء التحليل: {str(e)}", None
+# إنشاء واجهة Gradio
 def gradio_interface():
+    with gr.Blocks(css="""
+        .container {
+            max-width: 800px;
+            margin: auto;
+            padding: 20px;
+        }
+        .btn-primary {
+            background-color: #4CAF50;
+            color: white;
+        }
+        .table {
+            width: 100%;
+            border-collapse: collapse;
+            margin-bottom: 20px;
+        }
+        .table th, .table td {
+            border: 1px solid #ddd;
+            padding: 8px;
+        }
+        .table th {
+            background-color: #f2f2f2;
+            text-align: left;
+        }
+    """) as demo:
+        gr.Markdown("## مستخرج الهاشتاغات والعناوين من TikTok 🏷️", elem_classes=["container"])
+        with gr.Row(elem_classes=["container"]):
+            file_input = gr.File(label="ارفع ملف HTML")
+            min_freq_slider = gr.Slider(
+                minimum=1, maximum=50, value=1, label="الحد الأدنى لتكرار الهاشتاغ"
+            )
+        analyze_btn = gr.Button("تحليل البيانات", elem_classes=["btn-primary"])
+        with gr.Tabs(elem_classes=["container"]):
             with gr.TabItem("العناوين"):
                 titles_output = gr.HTML(label="العناوين")
             with gr.TabItem("الهاشتاغات"):
                 hashtags_output = gr.HTML(label="الهاشتاغات")
+                with gr.Row():
+                    copy_btn = gr.Button("نسخ الهاشتاغات", elem_classes=["btn-primary"])
+                    hashtags_textbox = gr.Textbox(
+                        label="نسخ الهاشتاغات هنا", visible=False, interactive=False
+                    )
+        # عند الضغط على زر التحليل
         analyze_btn.click(
+            fn=analyze_tiktok_data,
+            inputs=[file_input, min_freq_slider],
+            outputs=[titles_output, hashtags_output],
         )
+        # نسخ الهاشتاغات إلى مربع النص
+        copy_btn.click(
+            fn=lambda df_titles, df_hashtags: "\n".join(df_hashtags["الهاشتاغ"].tolist()) if df_hashtags is not None else "",
+            inputs=[file_input, min_freq_slider],
+            outputs=hashtags_textbox,
+        )
+        hashtags_textbox.change(visible=True)
     return demo
 # تشغيل التطبيق
+demo = gradio_interface()
+demo.launch()