Spaces:

fruitpicker01
/

Test_Pipeline_dev_2

Sleeping

App Files Files Community

fruitpicker01 commited on Sep 23, 2024

Commit

0f89a9a

verified ·

1 Parent(s): 1b0cba1

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -18

app.py CHANGED Viewed

@@ -19,6 +19,8 @@ from datetime import datetime, timedelta
 import plotly.express as px
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 morph = pymorphy2.MorphAnalyzer()
@@ -697,7 +699,8 @@ def load_previous_user_request_from_github():
 def get_reference_message(current_description, gender, generation, psychotype, business_stage, industry, legal_form):
     import io
-    import numpy as np  # Убедитесь, что NumPy импортирован
     repo = "fruitpicker01/Storage_dev"
     file_path = "messages.csv"
     url = f"https://api.github.com/repos/{repo}/contents/{file_path}"
@@ -747,47 +750,37 @@ def get_reference_message(current_description, gender, generation, psychotype, b
         print("Сообщения с заданными параметрами не найдены.")
         return None
-    # Проверяем наличие столбца 'Описание предложения'
     if 'Описание предложения' not in filtered_df.columns:
         print("Описание предложения отсутствует в данных.")
         return None
-    # Заменяем NaN на пустые строки в 'Описание предложения'
     filtered_df['Описание предложения'] = filtered_df['Описание предложения'].fillna('')
-    # Собираем описания для вычисления сходства
     descriptions = filtered_df['Описание предложения'].tolist()
-    descriptions.insert(0, current_description)  # Добавляем текущее описание в начало списка
-    # Вычисляем TF-IDF векторы и косинусное сходство
-    vectorizer = TfidfVectorizer()
-    tfidf_matrix = vectorizer.fit_transform(descriptions)
-    cosine_similarities = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:]).flatten()
     # Находим максимальное косинусное сходство
     max_similarity = cosine_similarities.max()
-    # Находим индексы, где косинусное сходство равно максимальному
     max_similarity_indices = np.where(cosine_similarities == max_similarity)[0]
     # Получаем строки с максимальным сходством
     similar_rows = filtered_df.iloc[max_similarity_indices]
-    # Проверяем наличие столбца 'Timestamp'
     if 'Timestamp' not in similar_rows.columns:
         print("Столбец 'Timestamp' отсутствует в данных.")
-        # Если нет 'Timestamp', выбираем первую строку
         similar_row = similar_rows.iloc[0]
     else:
-        # Создаем копию DataFrame, чтобы избежать предупреждений
         similar_rows = similar_rows.copy()
-        # Преобразуем 'Timestamp' в числовой формат (предполагая, что это UNIX-время)
         similar_rows['Timestamp'] = pd.to_numeric(similar_rows['Timestamp'], errors='coerce')
-        # Сортируем строки по 'Timestamp' в порядке убывания
         similar_rows = similar_rows.sort_values(by='Timestamp', ascending=False)
-        # Выбираем первую строку (с самым новым 'Timestamp')
         similar_row = similar_rows.iloc[0]
     if pd.notnull(similar_row.get("Откорректированное сообщение", None)) and similar_row["Откорректированное сообщение"].strip():

 import plotly.express as px
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
+from sentence_transformers import SentenceTransformer, util
+import numpy as np
 morph = pymorphy2.MorphAnalyzer()
 def get_reference_message(current_description, gender, generation, psychotype, business_stage, industry, legal_form):
     import io
+    import numpy as np
+    from sentence_transformers import SentenceTransformer
     repo = "fruitpicker01/Storage_dev"
     file_path = "messages.csv"
     url = f"https://api.github.com/repos/{repo}/contents/{file_path}"
         print("Сообщения с заданными параметрами не найдены.")
         return None
     if 'Описание предложения' not in filtered_df.columns:
         print("Описание предложения отсутствует в данных.")
         return None
     filtered_df['Описание предложения'] = filtered_df['Описание предложения'].fillna('')
+    # Используем модель для получения эмбеддингов
+    model = SentenceTransformer('sergeyzh/rubert-tiny-turbo')  # Это быстрая и легкая модель
     descriptions = filtered_df['Описание предложения'].tolist()
+    descriptions.insert(0, current_description)  # Добавляем текущее описание
+    embeddings = model.encode(descriptions)
+    cosine_similarities = cosine_similarity([embeddings[0]], embeddings[1:]).flatten()
     # Находим максимальное косинусное сходство
     max_similarity = cosine_similarities.max()
+    # Находим индексы с максимальным сходством
     max_similarity_indices = np.where(cosine_similarities == max_similarity)[0]
     # Получаем строки с максимальным сходством
     similar_rows = filtered_df.iloc[max_similarity_indices]
+    # Обработка Timestamp
     if 'Timestamp' not in similar_rows.columns:
         print("Столбец 'Timestamp' отсутствует в данных.")
         similar_row = similar_rows.iloc[0]
     else:
         similar_rows = similar_rows.copy()
         similar_rows['Timestamp'] = pd.to_numeric(similar_rows['Timestamp'], errors='coerce')
         similar_rows = similar_rows.sort_values(by='Timestamp', ascending=False)
         similar_row = similar_rows.iloc[0]
     if pd.notnull(similar_row.get("Откорректированное сообщение", None)) and similar_row["Откорректированное сообщение"].strip():