Update app.py
Browse files
app.py
CHANGED
@@ -3,36 +3,49 @@ from collections import Counter
|
|
3 |
import re
|
4 |
|
5 |
# دالة استخراج الكلمات والهاشتاغات من ملف .txt
|
6 |
-
def
|
7 |
-
if not file:
|
8 |
-
return "❌ لم يتم رفع ملف", "❌ لم يتم رفع ملف"
|
9 |
-
|
10 |
try:
|
11 |
# قراءة محتوى الملف
|
12 |
-
content = file.read().
|
|
|
|
|
13 |
|
14 |
-
|
15 |
-
|
16 |
|
17 |
-
|
18 |
-
|
19 |
-
|
20 |
-
|
21 |
-
|
22 |
-
|
|
|
|
|
23 |
|
24 |
-
|
25 |
-
|
26 |
-
|
27 |
-
|
28 |
-
|
|
|
|
|
|
|
|
|
29 |
]
|
30 |
-
|
31 |
|
32 |
-
|
|
|
33 |
|
34 |
-
|
35 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
36 |
|
37 |
|
38 |
# إنشاء واجهة Gradio
|
|
|
3 |
import re
|
4 |
|
5 |
# دالة استخراج الكلمات والهاشتاغات من ملف .txt
|
6 |
+
def extract_titles_and_hashtags(file):
|
|
|
|
|
|
|
7 |
try:
|
8 |
# قراءة محتوى الملف
|
9 |
+
content = file.read() if hasattr(file, 'read') else open(file.name, 'r', encoding='utf-8').read()
|
10 |
+
except Exception as e:
|
11 |
+
return f"خطأ أثناء قراءة الملف: {str(e)}", None
|
12 |
|
13 |
+
# تحليل HTML باستخدام BeautifulSoup
|
14 |
+
soup = BeautifulSoup(content, 'html.parser')
|
15 |
|
16 |
+
# استخراج البيانات
|
17 |
+
data = []
|
18 |
+
hashtags_counter = Counter()
|
19 |
+
|
20 |
+
# العثور على الحاويات التي تحتوي على البيانات
|
21 |
+
desc_containers = soup.find_all('div', class_="css-vi46v1-DivDesContainer")
|
22 |
+
if not desc_containers:
|
23 |
+
return "لم يتم العثور على أي بيانات مطابقة.", ""
|
24 |
|
25 |
+
for container in desc_containers:
|
26 |
+
# استخراج العنوان من الخاصية aria-label
|
27 |
+
title = container.get('aria-label', 'بدون عنوان')
|
28 |
+
|
29 |
+
# استخراج الهاشتاغات
|
30 |
+
hashtags = [
|
31 |
+
tag.get_text(strip=True)
|
32 |
+
for tag in container.find_all('a')
|
33 |
+
if tag.get_text(strip=True).startswith('#')
|
34 |
]
|
35 |
+
hashtags_counter.update(hashtags)
|
36 |
|
37 |
+
# إضافة البيانات إلى القائمة
|
38 |
+
data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
|
39 |
|
40 |
+
# تحويل البيانات إلى DataFrame
|
41 |
+
df_titles = pd.DataFrame(data)
|
42 |
+
df_hashtags = pd.DataFrame(hashtags_counter.items(), columns=["Hashtag", "Count"]).sort_values(by="Count", ascending=False)
|
43 |
+
|
44 |
+
# تحويل النتائج إلى HTML للعرض
|
45 |
+
titles_html = df_titles.to_html(index=False) if not df_titles.empty else "لا توجد عناوين مستخرجة."
|
46 |
+
hashtags_html = df_hashtags.to_html(index=False) if not df_hashtags.empty else "لا توجد هاشتاغات مستخرجة."
|
47 |
+
|
48 |
+
return titles_html, hashtags_html
|
49 |
|
50 |
|
51 |
# إنشاء واجهة Gradio
|