Spaces:

KIMOSSINO
/

hashtags

Sleeping

App Files Files Community

KIMOSSINO commited on Dec 8, 2024

Commit

a10305f

verified ·

1 Parent(s): 0cfa117

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -57

app.py CHANGED Viewed

@@ -5,90 +5,38 @@ import gradio as gr
 def extract_data_from_html(file):
     try:
-        # قراءة محتوى الملف
         content = file.read().decode('utf-8')
     except Exception as e:
         return f"خطأ أثناء قراءة الملف: {str(e)}", None
-    # تحليل HTML باستخدام BeautifulSoup
     soup = BeautifulSoup(content, 'html.parser')
-    # استخراج البيانات
     data = []
     hashtags_counter = Counter()
-    # العثور على الحاويات التي تحتوي على البيانات
-    desc_containers = soup.find_all('div', class_="css-vi46v1-DivDesContainer")
     print(f"عدد الحاويات التي تم العثور عليها: {len(desc_containers)}")
-    for container in desc_containers:
-        # طباعة كل حاوية لتحليلها
-        print(container.prettify())  # طباعة محتوى الحاوية
-        # استخراج العنوان
-        title_tag = container.find('h1', class_="css-198cw7i-H1Container")
-        title = title_tag.get_text(strip=True) if title_tag else "بدون عنوان"
-        print(f"العنوان: {title}")
-        # استخراج الهاشتاغات
-        hashtags = [
-            tag.get_text(strip=True)
-            for tag in container.find_all('a', class_="css-sbcvet-StyledCommonLink")
-            if tag.get_text(strip=True).startswith('#')
-        ]
-        print(f"الهاشتاغات: {hashtags}")
-        hashtags_counter.update(hashtags)
-        # إضافة البيانات إلى القائمة
-        data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
-    # تحويل البيانات إلى DataFrame
-    df_titles = pd.DataFrame(data)
-    df_hashtags = pd.DataFrame(hashtags_counter.items(), columns=["Hashtag", "Count"]).sort_values(by="Count", ascending=False)
-    return df_titles, df_hashtags
-def extract_data_from_html(file):
-    try:
-        # قراءة محتوى الملف المرفوع
-        content = file.read().decode('utf-8')
-    except Exception as e:
-        return f"خطأ أثناء قراءة الملف: {str(e)}", None
-    # تحليل HTML باستخدام BeautifulSoup
-    soup = BeautifulSoup(content, 'html.parser')
-    # استخراج البيانات
-    data = []
-    hashtags_counter = Counter()
-    # العثور على الحاويات التي تحتوي على البيانات
-    desc_containers = soup.find_all('div', class_="css-vi46v1-DivDesContainer")
     for container in desc_containers:
-        # استخراج العنوان
-        title_tag = container.find('h1', class_="css-198cw7i-H1Container")
         title = title_tag.get_text(strip=True) if title_tag else "بدون عنوان"
-        # استخراج الهاشتاغات
         hashtags = [
             tag.get_text(strip=True)
-            for tag in container.find_all('a', class_="css-sbcvet-StyledCommonLink")
             if tag.get_text(strip=True).startswith('#')
         ]
         hashtags_counter.update(hashtags)
-        # إضافة البيانات إلى القائمة
         data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
-    # تحويل البيانات إلى DataFrame
     df_titles = pd.DataFrame(data)
     df_hashtags = pd.DataFrame(hashtags_counter.items(), columns=["Hashtag", "Count"]).sort_values(by="Count", ascending=False)
     return df_titles, df_hashtags
 # واجهة Gradio
 def gradio_interface(file):
     result = extract_data_from_html(file)

 def extract_data_from_html(file):
     try:
         content = file.read().decode('utf-8')
     except Exception as e:
         return f"خطأ أثناء قراءة الملف: {str(e)}", None
     soup = BeautifulSoup(content, 'html.parser')
     data = []
     hashtags_counter = Counter()
+    # البحث عن جميع العناصر التي تحتوي على البيانات
+    desc_containers = soup.find_all('div')  # البحث عن جميع الحاويات العامة
     print(f"عدد الحاويات التي تم العثور عليها: {len(desc_containers)}")
     for container in desc_containers:
+        title_tag = container.find('h1')
         title = title_tag.get_text(strip=True) if title_tag else "بدون عنوان"
         hashtags = [
             tag.get_text(strip=True)
+            for tag in container.find_all('a')
             if tag.get_text(strip=True).startswith('#')
         ]
         hashtags_counter.update(hashtags)
         data.append({"Title": title, "Hashtags": ", ".join(hashtags)})
     df_titles = pd.DataFrame(data)
     df_hashtags = pd.DataFrame(hashtags_counter.items(), columns=["Hashtag", "Count"]).sort_values(by="Count", ascending=False)
     return df_titles, df_hashtags
 # واجهة Gradio
 def gradio_interface(file):
     result = extract_data_from_html(file)