Spaces:

KIMOSSINO
/

hashtags

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 8, 2024

Commit

c72d7d4

verified ·

1 Parent(s): f9d9aab

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -22

app.py CHANGED Viewed

@@ -3,36 +3,49 @@ from collections import Counter
 import re
 # دالة استخراج الكلمات والهاشتاغات من ملف .txt
-def extract_from_txt(file, min_frequency=1):
-    if not file:
-        return "❌ لم يتم رفع ملف", "❌ لم يتم رفع ملف"
     try:
         # قراءة محتوى الملف
-        content = file.read().decode("utf-8")
-        # استخراج النصوص المحتوية على هاشتاغات
-        hashtags = re.findall(r"#\w+", content)
-        # حساب تكرار الهاشتاغات
-        hashtags_counter = Counter(hashtags)
-        filtered_hashtags = [
-            f"{tag}: {count}" for tag, count in hashtags_counter.items() if count >= min_frequency
-        ]
-        hashtags_output = "\n".join(filtered_hashtags) if filtered_hashtags else "❌ لا توجد هاشتاغات متكررة"
-        # تحليل الكلمات المتكررة في النص
-        words = re.findall(r"\b\w+\b", content.lower())
-        words_counter = Counter(words)
-        filtered_words = [
-            f"{word}: {count}" for word, count in words_counter.items() if count >= min_frequency
         ]
-        words_output = "\n".join(filtered_words) if filtered_words else "❌ لا توجد كلمات متكررة"
-        return words_output, hashtags_output
-    except Exception as e:
-        return f"❌ خطأ أثناء معالجة الملف: {str(e)}", "❌ خطأ أثناء معالجة الملف"
 # إنشاء واجهة Gradio

 import re
 # دالة استخراج الكلمات والهاشتاغات من ملف .txt
+def extract_titles_and_hashtags(file):
     try:
         # قراءة محتوى الملف
+        content = file.read() if hasattr(file, 'read') else open(file.name, 'r', encoding='utf-8').read()
+    except Exception as e:
+        return f"خطأ أثناء قراءة الملف: {str(e)}", None
+    # تحليل HTML باستخدام BeautifulSoup
+    soup = BeautifulSoup(content, 'html.parser')
+    # استخراج البيانات
+    data = []
+    hashtags_counter = Counter()
+    # العثور على الحاويات التي تحتوي على البيانات
+    desc_containers = soup.find_all('div', class_="css-vi46v1-DivDesContainer")
+    if not desc_containers:
+        return "لم يتم العثور على أي بيانات مطابقة.", ""
+    for container in desc_containers:
+        # استخراج العنوان من الخاصية aria-label
+        title = container.get('aria-label', 'بدون عنوان')
+        # استخراج الهاشتاغات
+        hashtags = [
+            tag.get_text(strip=True)
+            for tag in container.find_all('a')
+            if tag.get_text(strip=True).startswith('#')
         ]
+        hashtags_counter.update(hashtags)
+        # إضافة البيانات إلى القائمة
+        data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
+    # تحويل البيانات إلى DataFrame
+    df_titles = pd.DataFrame(data)
+    df_hashtags = pd.DataFrame(hashtags_counter.items(), columns=["Hashtag", "Count"]).sort_values(by="Count", ascending=False)
+    # تحويل النتائج إلى HTML للعرض
+    titles_html = df_titles.to_html(index=False) if not df_titles.empty else "لا توجد عناوين مستخرجة."
+    hashtags_html = df_hashtags.to_html(index=False) if not df_hashtags.empty else "لا توجد هاشتاغات مستخرجة."
+    return titles_html, hashtags_html
 # إنشاء واجهة Gradio