Spaces:

boompack
/

hy

Sleeping

App Files Files Community

boompack commited on Nov 7, 2024

Commit

55ab780

verified ·

1 Parent(s): 113a323

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -94

app.py CHANGED Viewed

@@ -16,22 +16,6 @@ logger = logging.getLogger(__name__)
 @dataclass
 class Comment:
-    """
-    Представляет комментарий Instagram со всеми метаданными и вложенной структурой.
-    Attributes:
-        id: Уникальный идентификатор комментария
-        username: Имя пользователя
-        time: Временная метка
-        content: Текст комментария
-        likes: Количество лайков
-        level: Уровень вложенности
-        parent_id: ID родительского комментария
-        replies: Список ответов
-        is_verified: Верифицированный аккаунт
-        mentions: Упоминания пользователей
-        hashtags: Хэштеги
-        is_deleted: Флаг удаленного комментария
-    """
     id: str = field(default_factory=lambda: str(uuid4()))
     username: str = ""
     time: str = ""
@@ -44,20 +28,14 @@ class Comment:
     mentions: List[str] = field(default_factory=list)
     hashtags: List[str] = field(default_factory=list)
     is_deleted: bool = False
     def __post_init__(self):
-        """Валидация после инициализации"""
         if len(self.content) > 2200:
             logger.warning(f"Comment content exceeds 2200 characters for user {self.username}")
             self.content = self.content[:2200] + "..."
 class InstagramCommentAnalyzer:
-    """
-    Основной класс для обработки и анализа комментариев Instagram.
-    Обрабатывает парсинг комментариев, вложенную структуру и особые случаи.
-    """
-    # Регулярное выражение для извлечения комментариев
     COMMENT_PATTERN = r'''
         (?P<username>[\w.-]+)\s+
         (?P<time>\d+\s+нед\.)
@@ -67,12 +45,6 @@ class InstagramCommentAnalyzer:
     '''
     def __init__(self, max_depth: int = 10, max_comment_length: int = 2200):
-        """
-        Инициализация анализатора с настраиваемыми параметрами.
-        Args:
-            max_depth: Максимальная глубина вложенности комментариев
-            max_comment_length: Максимальная длина комментария
-        """
         self.max_depth = max_depth
         self.max_comment_length = max_comment_length
         self.pattern = re.compile(self.COMMENT_PATTERN, re.VERBOSE | re.DOTALL)
@@ -87,63 +59,30 @@ class InstagramCommentAnalyzer:
             'processed_hashtags': 0
         }
-        # Инициализация модели Hugging Face для анализа настроений
-        self.sentiment_analyzer = pipeline("sentiment-analysis")
     def analyze_sentiment(self, text: str) -> str:
-        """
-        Анализ настроений в комментарии с использованием модели Hugging Face.
-        Args:
-            text: Текст комментария
-        Returns:
-            Строка с меткой настроения ('POSITIVE' или 'NEGATIVE')
-        """
         result = self.sentiment_analyzer(text)
         return result[0]['label']
     def normalize_text(self, text: str) -> str:
-        """
-        Нормализация входного текста.
-        Args:
-            text: Исходный текст
-        Returns:
-            Нормализованный текст
-        """
-        # Декодирование HTML-сущностей
         text = html.unescape(text)
-        # Нормализация пробелов
         text = ' '.join(text.split())
-        # Удаление невидимых символов
         text = re.sub(r'[\u200b\ufeff\u200c]', '', text)
         return text
     def extract_metadata(self, comment: Comment) -> None:
-        """
-        Извлечение метаданных из комментария.
-        Args:
-            comment: Объект комментария
-        """
-        # Извлечение @упоминаний
         comment.mentions = re.findall(r'@(\w+)', comment.content)
         self.stats['processed_mentions'] += len(comment.mentions)
-        # Извлечение #хэштегов
         comment.hashtags = re.findall(r'#(\w+)', comment.content)
         self.stats['processed_hashtags'] += len(comment.hashtags)
-        # Проверка верификации
         comment.is_verified = bool(re.search(r'✓|Подтвержденный', comment.username))
     def process_comment(self, text: str, parent_id: Optional[str] = None, level: int = 0) -> Optional[Comment]:
-        """
-        Обработка отдельного комментария.
-        Args:
-            text: Текст комментария
-            parent_id: ID родительского комментария
-            level: Уровень вложенности
-        Returns:
-            Обработанный объект Comment или None
-        """
         if level > self.max_depth:
             logger.warning(f"Maximum depth {self.max_depth} exceeded")
             self.stats['max_depth_reached'] += 1
@@ -172,7 +111,6 @@ class InstagramCommentAnalyzer:
                 self.stats['truncated_comments'] += 1
                 comment.content = comment.content[:self.max_comment_length] + "..."
-            # Добавление анализа настроений
             comment.sentiment = self.analyze_sentiment(comment.content)
             self.extract_metadata(comment)
@@ -191,14 +129,6 @@ class InstagramCommentAnalyzer:
             return comment
     def format_comment(self, comment: Comment, index: int) -> str:
-        """
-        Форматирование комментария для вывода.
-        Args:
-            comment: Объект комментария
-            index: Номер комментария
-        Returns:
-            Отформатированная строка комментария
-        """
         if comment.is_deleted:
             return f'{index}. "[УДАЛЕНО]" "" "" "Нравится 0"'
@@ -208,23 +138,9 @@ class InstagramCommentAnalyzer:
         )
     def process_comments(self, text: str) -> List[str]:
-        """
-        Обработка всех комментариев в тексте.
-        Args:
-            text: Исходный текст с комментариями
-        Returns:
-            Список отформатированных комментариев
-        """
-        # Сброс статистики
         self.stats = {key: 0 for key in self.stats}
-        # Нормализация текста
         text = self.normalize_text(text)
-        # Разделение на отдельные комментарии
         raw_comments = text.split('ОтветитьНравится')
-        # Обработка комментариев
         formatted_comments = []
         for i, raw_comment in enumerate(raw_comments, 1):
             if not raw_comment.strip():
@@ -237,10 +153,6 @@ class InstagramCommentAnalyzer:
         return formatted_comments
 def main():
-    """
-    Пример использования анализатора.
-    """
-    # Пример входного текста
     example_text = """
     user1 2 нед. This is a positive comment! Отметки "Нравится": 25
     user2 3 нед. This is a negative comment! Отметки "Нравится": 5

 @dataclass
 class Comment:
     id: str = field(default_factory=lambda: str(uuid4()))
     username: str = ""
     time: str = ""
     mentions: List[str] = field(default_factory=list)
     hashtags: List[str] = field(default_factory=list)
     is_deleted: bool = False
+    sentiment: Optional[str] = None
     def __post_init__(self):
         if len(self.content) > 2200:
             logger.warning(f"Comment content exceeds 2200 characters for user {self.username}")
             self.content = self.content[:2200] + "..."
 class InstagramCommentAnalyzer:
     COMMENT_PATTERN = r'''
         (?P<username>[\w.-]+)\s+
         (?P<time>\d+\s+нед\.)
     '''
     def __init__(self, max_depth: int = 10, max_comment_length: int = 2200):
         self.max_depth = max_depth
         self.max_comment_length = max_comment_length
         self.pattern = re.compile(self.COMMENT_PATTERN, re.VERBOSE | re.DOTALL)
             'processed_hashtags': 0
         }
+        # Явное указание модели для анализа настроений
+        self.sentiment_analyzer = pipeline(
+            "sentiment-analysis",
+            model="distilbert-base-uncased-finetuned-sst-2-english"  # Выбор модели
+        )
     def analyze_sentiment(self, text: str) -> str:
         result = self.sentiment_analyzer(text)
         return result[0]['label']
     def normalize_text(self, text: str) -> str:
         text = html.unescape(text)
         text = ' '.join(text.split())
         text = re.sub(r'[\u200b\ufeff\u200c]', '', text)
         return text
     def extract_metadata(self, comment: Comment) -> None:
         comment.mentions = re.findall(r'@(\w+)', comment.content)
         self.stats['processed_mentions'] += len(comment.mentions)
         comment.hashtags = re.findall(r'#(\w+)', comment.content)
         self.stats['processed_hashtags'] += len(comment.hashtags)
         comment.is_verified = bool(re.search(r'✓|Подтвержденный', comment.username))
     def process_comment(self, text: str, parent_id: Optional[str] = None, level: int = 0) -> Optional[Comment]:
         if level > self.max_depth:
             logger.warning(f"Maximum depth {self.max_depth} exceeded")
             self.stats['max_depth_reached'] += 1
                 self.stats['truncated_comments'] += 1
                 comment.content = comment.content[:self.max_comment_length] + "..."
             comment.sentiment = self.analyze_sentiment(comment.content)
             self.extract_metadata(comment)
             return comment
     def format_comment(self, comment: Comment, index: int) -> str:
         if comment.is_deleted:
             return f'{index}. "[УДАЛЕНО]" "" "" "Нравится 0"'
         )
     def process_comments(self, text: str) -> List[str]:
         self.stats = {key: 0 for key in self.stats}
         text = self.normalize_text(text)
         raw_comments = text.split('ОтветитьНравится')
         formatted_comments = []
         for i, raw_comment in enumerate(raw_comments, 1):
             if not raw_comment.strip():
         return formatted_comments
 def main():
     example_text = """
     user1 2 нед. This is a positive comment! Отметки "Нравится": 25
     user2 3 нед. This is a negative comment! Отметки "Нравится": 5