Test_Pipeline_v7

Sleeping

App Files Files Community

fruitpicker01 commited on Sep 19, 2024

Commit

7fcead6

verified ·

1 Parent(s): 28e81e9

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -32

app.py CHANGED Viewed

@@ -375,6 +375,25 @@ def update_download_link():
         contributor_pie_fig = px.pie(values=contributor_counts.values, names=contributor_counts.index, title='Наиболее активные контрибьюторы')
         date_message_fig = px.bar(x=date_counts.index, y=date_counts.values, labels={'x': 'Дата', 'y': 'Количество сообщений'}, title='Количество добавленных сообщений по датам')
         def remove_extra_text(message):
             if pd.isnull(message):
                 return ''
@@ -382,53 +401,38 @@ def update_download_link():
             return re.sub(r'\n-{6,}\nКоличество знаков: \d+', '', message).strip()
         # Применяем функцию к персонализированным и откорректированным сообщениям
-        clean_df['Персонализированное сообщение'] = clean_df['Персонализированное сообщение'].apply(remove_extra_text)
-        clean_df['Откорректированное сообщение'] = clean_df['Откорректированное сообщение'].fillna('').apply(remove_extra_text)
-        # Если есть откорректированное сообщение, используем его; иначе — персонализированное
-        clean_df['Сообщение'] = clean_df['Откорректированное сообщение'].where(
-            clean_df['Откорректированное сообщение'].str.strip() != '',
-            clean_df['Персонализированное сообщение']
-        )
         # Подсчитываем количество символов
-        clean_df['Количество символов'] = clean_df['Сообщение'].str.len()
-        mean_characters = clean_df['Количество символов'].mean()
-        median_characters = clean_df['Количество символов'].median()
         # Подсчитываем количество предложений
-        # Используем регулярное выражение для более точного разделения предложений
-        clean_df['Количество предложений'] = clean_df['Сообщение'].apply(lambda x: len(re.findall(r'[.!?]', x)))
         # График распределения по количеству символов
-        character_counts = clean_df['Количество символов'].value_counts().sort_index()
         char_count_fig = px.bar(
-            x=character_counts.index,
-            y=character_counts.values,
-            labels={'x': 'Количество символов', 'y': 'Количество сообщений'},
             title='Распределение сообщений по количеству символов'
         )
         char_count_fig.add_vline(
-            x=mean_characters,
-            line_width=3,
-            line_dash="dash",
-            line_color="green",
             annotation_text=f"Среднее: {mean_characters:.1f}"
         )
-        char_count_fig.add_vline(
-            x=median_characters,
-            line_width=3,
-            line_dash="dash",
-            line_color="red",
-            annotation_text=f"Медиана: {median_characters:.1f}"
-        )
         # График распределения по количеству предложений
-        sentence_counts = clean_df['Количество предложений'].value_counts().sort_index()
         sentence_count_fig = px.bar(
-            x=sentence_counts.index,
-            y=sentence_counts.values,
-            labels={'x': 'Количество предложений', 'y': 'Количество сообщений'},
             title='Распределение сообщений по количеству предложений'
         )

         contributor_pie_fig = px.pie(values=contributor_counts.values, names=contributor_counts.index, title='Наиболее активные контрибьюторы')
         date_message_fig = px.bar(x=date_counts.index, y=date_counts.values, labels={'x': 'Дата', 'y': 'Количество сообщений'}, title='Количество добавленных сообщений по датам')
+        # Сообщения без корректировок
+        messages_without_corrections = df[
+            (df['Персонализированное сообщение'].notna()) &
+            (df['Персонализированное сообщение'].str.strip() != '') &
+            ((df['Комментарий'].isna()) | (df['Комментарий'].str.strip() == '')) &
+            ((df['Откорректированное сообщение'].isna()) | (df['Откорректированное сообщение'].str.strip() == ''))
+        ].copy()
+        messages_without_corrections['Сообщение'] = messages_without_corrections['Персонализированное сообщение']
+        # Откорректированные сообщения
+        corrected_messages = df[
+            (df['Откорректированное сообщение'].notna()) &
+            (df['Откорректированное сообщение'].str.strip() != '')
+        ].copy()
+        corrected_messages['Сообщение'] = corrected_messages['Откорректированное сообщение']
+        # Объединяем сообщения
+        messages_df = pd.concat([messages_without_corrections, corrected_messages], ignore_index=True)
         def remove_extra_text(message):
             if pd.isnull(message):
                 return ''
             return re.sub(r'\n-{6,}\nКоличество знаков: \d+', '', message).strip()
         # Применяем функцию к персонализированным и откорректированным сообщениям
+        messages_df['Сообщение'] = messages_df['Сообщение'].apply(remove_extra_text)
         # Подсчитываем количество символов
+        messages_df['Количество символов'] = messages_df['Сообщение'].str.len()
+        mean_characters = messages_df['Количество символов'].mean()
+        median_characters = messages_df['Количество символов'].median()
         # Подсчитываем количество предложений
+        messages_df['Количество предложений'] = messages_df['Сообщение'].apply(lambda x: len(re.findall(r'[.!?]+', x)))
         # График распределения по количеству символов
+        character_counts = messages_df['Количество символов'].value_counts().sort_index()
         char_count_fig = px.bar(
+            x=character_counts.index,
+            y=character_counts.values,
+            labels={'x': 'Количество символов', 'y': 'Количество сообщений'},
             title='Распределение сообщений по количеству символов'
         )
         char_count_fig.add_vline(
+            x=mean_characters,
+            line_width=3,
+            line_dash="dash",
+            line_color="green",
             annotation_text=f"Среднее: {mean_characters:.1f}"
         )
         # График распределения по количеству предложений
+        sentence_counts = messages_df['Количество предложений'].value_counts().sort_index()
         sentence_count_fig = px.bar(
+            x=sentence_counts.index,
+            y=sentence_counts.values,
+            labels={'x': 'Количество предложений', 'y': 'Количество сообщений'},
             title='Распределение сообщений по количеству предложений'
         )