Spaces:

boompack
/

new-space

Sleeping

App Files Files Community

boompack commited on Nov 2, 2024

Commit

bf4724c

verified ·

1 Parent(s): cce8ab3

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -36

app.py CHANGED Viewed

@@ -25,54 +25,34 @@ def is_spam(text: str) -> bool:
 def extract_comment_data(comment_text: str) -> Tuple[Optional[str], Optional[str], int, int]:
     """Извлекает данные из комментария"""
     try:
-        if 'отметок "Нравится"' in comment_text:
-            return None, None, 0, 0
-        # Извлекаем имя пользователя (поддержка обоих форматов)
-        username = None
-        # Формат 1: "Фото профиля username\nusername\n"
-        if "Фото профиля" in comment_text:
-            username_match = re.search(r"Фото профиля ([^\n]+)", comment_text)
-            if username_match:
-                username = username_match.group(1).strip()
-        # Формат 2: Прямое указание имени пользователя
-        else:
-            lines = comment_text.split('\n')
-            if lines and lines[0].strip():
-                username = lines[0].strip()
         if not username:
             return None, None, 0, 0
-        # Извлекаем текст комментария
-        lines = comment_text.split('\n')
         comment = ""
-        # Ищем комментарий после времени
         time_pattern = r'\d+\s*(?:ч\.|нед\.)'
-        for i, line in enumerate(lines):
             if re.search(time_pattern, line):
-                if i + 1 < len(lines):
-                    comment = lines[i + 1].strip()
                 break
-            elif username in line and i + 2 < len(lines):
-                # Проверяем следующую строку после юзернейма
-                next_line = lines[i + 1].strip()
-                if not re.search(time_pattern, next_line):
-                    comment = next_line
-                    break
-        # Очищаем комментарий
         comment = re.sub(r'\d+\s*(?:ч\.|нед\.)\s*$', '', comment)
         comment = re.sub(r'"Нравится":\s*\d+\s*Ответить\s*$', '', comment)
-        # Извлекаем лайки
         likes_match = re.search(r'"Нравится":\s*(\d+)', comment_text)
         likes = int(likes_match.group(1)) if likes_match else 0
-        # Извлекаем время
         time_match = re.search(r'(\d+)\s*(?:ч\.|нед\.)', comment_text)
         time = int(time_match.group(1)) if time_match else 0
@@ -133,18 +113,15 @@ def analyze_post(content_type: str, link: str, post_likes: int,
         analytics = f"""
         📊 Подробный анализ комментариев:
         Основные метрики:
         • Всего комментариев: {total_comments}
         • Уникальных пользователей: {unique_users}
         • Общее количество лайков: {total_likes}
         • Среднее количество лайков: {avg_likes:.1f}
         Дополнительная информация:
         • Использовано эмодзи: {total_emojis}
         • Количество упоминаний: {len(mentions)}
         • Выявлено спам-комментариев: {spam_count}
         Топ комментаторы:
         {chr(10).join(f'• {user}: {count} комментария' for user, count in top_commenters if count > 1)}
         """
@@ -210,6 +187,7 @@ iface = gr.Interface(
     description="Анализатор комментариев Instagram с расширенной аналитикой",
     theme="default"
 )
 if __name__ == "__main__":
     try:
         iface.launch(

 def extract_comment_data(comment_text: str) -> Tuple[Optional[str], Optional[str], int, int]:
     """Извлекает данные из комментария"""
     try:
+        # Extract username
+        username_match = re.search(r'Фото профиля\s+(.+?)\n', comment_text)
+        username = username_match.group(1).strip() if username_match else None
         if not username:
             return None, None, 0, 0
+        # Extract comment text
+        comment_lines = comment_text.split('\n')
         comment = ""
         time_pattern = r'\d+\s*(?:ч\.|нед\.)'
+        # Identify where the comment text starts
+        for i, line in enumerate(comment_lines):
             if re.search(time_pattern, line):
+                if i + 1 < len(comment_lines):
+                    comment = comment_lines[i + 1].strip()
                 break
+        # Clean up comment text
         comment = re.sub(r'\d+\s*(?:ч\.|нед\.)\s*$', '', comment)
         comment = re.sub(r'"Нравится":\s*\d+\s*Ответить\s*$', '', comment)
+        # Extract likes
         likes_match = re.search(r'"Нравится":\s*(\d+)', comment_text)
         likes = int(likes_match.group(1)) if likes_match else 0
+        # Extract time
         time_match = re.search(r'(\d+)\s*(?:ч\.|нед\.)', comment_text)
         time = int(time_match.group(1)) if time_match else 0
         analytics = f"""
         📊 Подробный анализ комментариев:
         Основные метрики:
         • Всего комментариев: {total_comments}
         • Уникальных пользователей: {unique_users}
         • Общее количество лайков: {total_likes}
         • Среднее количество лайков: {avg_likes:.1f}
         Дополнительная информация:
         • Использовано эмодзи: {total_emojis}
         • Количество упоминаний: {len(mentions)}
         • Выявлено спам-комментариев: {spam_count}
         Топ комментаторы:
         {chr(10).join(f'• {user}: {count} комментария' for user, count in top_commenters if count > 1)}
         """
     description="Анализатор комментариев Instagram с расширенной аналитикой",
     theme="default"
 )
 if __name__ == "__main__":
     try:
         iface.launch(