Test_Pipeline_v7

Sleeping

App Files Files Community

fruitpicker01 commited on Sep 19, 2024

Commit

28e81e9

verified ·

1 Parent(s): b33f4f3

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -9

app.py CHANGED Viewed

@@ -375,32 +375,64 @@ def update_download_link():
         contributor_pie_fig = px.pie(values=contributor_counts.values, names=contributor_counts.index, title='Наиболее активные контрибьюторы')
         date_message_fig = px.bar(x=date_counts.index, y=date_counts.values, labels={'x': 'Дата', 'y': 'Количество сообщений'}, title='Количество добавленных сообщений по датам')
-        # 1. Распределение сообщений по количеству символов
-        clean_df['Количество символов'] = clean_df['Откорректированное сообщение'].fillna(clean_df['Персонализированное сообщение']).str.len()
-        character_counts = clean_df['Количество символов'].value_counts().sort_index()
         mean_characters = clean_df['Количество символов'].mean()
         median_characters = clean_df['Количество символов'].median()
         char_count_fig = px.bar(
             x=character_counts.index,
             y=character_counts.values,
             labels={'x': 'Количество символов', 'y': 'Количество сообщений'},
             title='Распределение сообщений по количеству символов'
         )
-        char_count_fig.add_vline(x=mean_characters, line_width=3, line_dash="dash", line_color="green", annotation_text=f"Среднее: {mean_characters:.1f}")
-        char_count_fig.add_vline(x=median_characters, line_width=3, line_dash="dash", line_color="red", annotation_text=f"Медиана: {median_characters:.1f}")
-        # 2. Распределение сообщений по количеству предложений
-        clean_df['Количество предложений'] = clean_df['Откорректированное сообщение'].fillna(clean_df['Персонализированное сообщение']).str.split('[.!?]').str.len()
         sentence_counts = clean_df['Количество предложений'].value_counts().sort_index()
         sentence_count_fig = px.bar(
             x=sentence_counts.index,
             y=sentence_counts.values,
             labels={'x': 'Количество предложений', 'y': 'Количество сообщений'},
             title='Распределение сообщений по количеству предложений'
         )
         return (
             f"[Скачать базу сообщений]({link})",
             total_messages_display_value,

         contributor_pie_fig = px.pie(values=contributor_counts.values, names=contributor_counts.index, title='Наиболее активные контрибьюторы')
         date_message_fig = px.bar(x=date_counts.index, y=date_counts.values, labels={'x': 'Дата', 'y': 'Количество сообщений'}, title='Количество добавленных сообщений по датам')
+        def remove_extra_text(message):
+            if pd.isnull(message):
+                return ''
+            # Удаляем строки вида "------\nКоличество знаков: число"
+            return re.sub(r'\n-{6,}\nКоличество знаков: \d+', '', message).strip()
+        # Применяем функцию к персонализированным и откорректированным сообщениям
+        clean_df['Персонализированное сообщение'] = clean_df['Персонализированное сообщение'].apply(remove_extra_text)
+        clean_df['Откорректированное сообщение'] = clean_df['Откорректированное сообщение'].fillna('').apply(remove_extra_text)
+        # Если есть откорректированное сообщение, используем его; иначе — персонализированное
+        clean_df['Сообщение'] = clean_df['Откорректированное сообщение'].where(
+            clean_df['Откорректированное сообщение'].str.strip() != '',
+            clean_df['Персонализированное сообщение']
+        )
+        # Подсчитываем количество символов
+        clean_df['Количество символов'] = clean_df['Сообщение'].str.len()
         mean_characters = clean_df['Количество символов'].mean()
         median_characters = clean_df['Количество символов'].median()
+        # Подсчитываем количество предложений
+        # Используем регулярное выражение для более точного разделения предложений
+        clean_df['Количество предложений'] = clean_df['Сообщение'].apply(lambda x: len(re.findall(r'[.!?]', x)))
+        # График распределения по количеству символов
+        character_counts = clean_df['Количество символов'].value_counts().sort_index()
         char_count_fig = px.bar(
             x=character_counts.index,
             y=character_counts.values,
             labels={'x': 'Количество символов', 'y': 'Количество сообщений'},
             title='Распределение сообщений по количеству символов'
         )
+        char_count_fig.add_vline(
+            x=mean_characters,
+            line_width=3,
+            line_dash="dash",
+            line_color="green",
+            annotation_text=f"Среднее: {mean_characters:.1f}"
+        )
+        char_count_fig.add_vline(
+            x=median_characters,
+            line_width=3,
+            line_dash="dash",
+            line_color="red",
+            annotation_text=f"Медиана: {median_characters:.1f}"
+        )
+        # График распределения по количеству предложений
         sentence_counts = clean_df['Количество предложений'].value_counts().sort_index()
         sentence_count_fig = px.bar(
             x=sentence_counts.index,
             y=sentence_counts.values,
             labels={'x': 'Количество предложений', 'y': 'Количество сообщений'},
             title='Распределение сообщений по количеству предложений'
         )
         return (
             f"[Скачать базу сообщений]({link})",
             total_messages_display_value,