Spaces:

fruitpicker01
/

Test_Pipeline_dev_2

Sleeping

App Files Files Community

fruitpicker01 commited on Sep 23, 2024

Commit

5f5feb3

verified ·

1 Parent(s): 12b9399

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -25

app.py CHANGED Viewed

@@ -17,6 +17,8 @@ import string
 import io
 from datetime import datetime, timedelta
 import plotly.express as px
 morph = pymorphy2.MorphAnalyzer()
@@ -693,20 +695,16 @@ def load_previous_user_request_from_github():
         return "", "", "", "", "", "", "", "", "", "", None, None, None, None, None, None
-def get_reference_message(gender, generation, psychotype, business_stage, industry, legal_form):
     import io
     repo = "fruitpicker01/Storage_dev"
     file_path = "messages.csv"
     url = f"https://api.github.com/repos/{repo}/contents/{file_path}"
     headers = {
         "Authorization": f"token {token}",
         "Content-Type": "application/json"
     }
     response = requests.get(url, headers=headers)
     if response.status_code == 200:
         content = response.json()
         file_content = base64.b64decode(content['content'])
@@ -715,11 +713,9 @@ def get_reference_message(gender, generation, psychotype, business_stage, indust
         print(f"Error accessing the file: {response.status_code}")
         return None
-    # Нормализуем данные для корректного сравнения
     for col in ["Пол", "Поколение", "Психотип", "Стадия бизнеса", "Отрасль", "ОПФ"]:
         df[col] = df[col].astype(str).str.strip().str.lower()
-    # Нормализуем входные параметры
     params = {
         "Пол": str(gender).strip().lower() if gender else None,
         "Поколение": str(generation).strip().lower() if generation else None,
@@ -729,10 +725,8 @@ def get_reference_message(gender, generation, psychotype, business_stage, indust
         "ОПФ": str(legal_form).strip().lower() if legal_form else None
     }
-    # Фильтруем строки, где поле "Комментарий" непустое
     df = df[df["Комментарий"].isna() | (df["Комментарий"].str.strip() == '')]
-    # Формируем условия фильтрации
     filter_conditions = []
     for col, value in params.items():
         if value and value.lower() != 'none':
@@ -742,7 +736,6 @@ def get_reference_message(gender, generation, psychotype, business_stage, indust
         print("Не заданы параметры персонализации.")
         return None
-    # Применяем фильтрацию
     filter_condition = filter_conditions[0]
     for condition in filter_conditions[1:]:
         filter_condition &= condition
@@ -753,25 +746,37 @@ def get_reference_message(gender, generation, psychotype, business_stage, indust
         print("Сообщения с заданными параметрами не найдены.")
         return None
-    # Сортируем по дате
-    filtered_df = filtered_df.sort_values(by="Timestamp", ascending=False)
-    # Берем последнее сообщение
-    latest_row = filtered_df.iloc[0]
-    # Получаем сообщение
-    if pd.notnull(latest_row.get("Откорректированное сообщение", None)) and latest_row["Откорректированное сообщение"].strip():
-        reference_message = latest_row["Откорректированное сообщение"]
-    else:
-        reference_message = latest_row.get("Персонализированное сообщение", "")
-    # Удаляем строку с количеством знаков
-    reference_message = re.sub(r'\n-{6,}\nКоличество знаков: \d+', '', reference_message).strip()
     return reference_message
 def adapt_messages_to_best_example(
     personalized_gigachat_pro,
     personalized_gigachat_lite,
     personalized_gigachat_plus,
@@ -790,7 +795,7 @@ def adapt_messages_to_best_example(
     legal_form = selected_values[5]
     # Получение эталонного сообщения (без изменений)
-    reference_message = get_reference_message(gender, generation, psychotype, business_stage, industry, legal_form)
     if not reference_message:
         # Если эталонное сообщение не найдено
@@ -871,7 +876,7 @@ def adapt_messages_to_best_example(
         yield adapted_gigachat_pro_display, adapted_gigachat_lite_display, adapted_gigachat_plus_display, adapted_gpt4o_display, adapted_meta_llama_405b_display
-def update_best_example_prompt(*selected_values):
     # Extract personalization parameters
     gender = selected_values[0]
     generation = selected_values[1]
@@ -881,7 +886,7 @@ def update_best_example_prompt(*selected_values):
     legal_form = selected_values[5]
     # Retrieve the reference message
-    reference_message = get_reference_message(gender, generation, psychotype, business_stage, industry, legal_form)
     if not reference_message:
         # No reference message found

 import io
 from datetime import datetime, timedelta
 import plotly.express as px
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.metrics.pairwise import cosine_similarity
 morph = pymorphy2.MorphAnalyzer()
         return "", "", "", "", "", "", "", "", "", "", None, None, None, None, None, None
+def get_reference_message(current_description, gender, generation, psychotype, business_stage, industry, legal_form):
     import io
     repo = "fruitpicker01/Storage_dev"
     file_path = "messages.csv"
     url = f"https://api.github.com/repos/{repo}/contents/{file_path}"
     headers = {
         "Authorization": f"token {token}",
         "Content-Type": "application/json"
     }
     response = requests.get(url, headers=headers)
     if response.status_code == 200:
         content = response.json()
         file_content = base64.b64decode(content['content'])
         print(f"Error accessing the file: {response.status_code}")
         return None
     for col in ["Пол", "Поколение", "Психотип", "Стадия бизнеса", "Отрасль", "ОПФ"]:
         df[col] = df[col].astype(str).str.strip().str.lower()
     params = {
         "Пол": str(gender).strip().lower() if gender else None,
         "Поколение": str(generation).strip().lower() if generation else None,
         "ОПФ": str(legal_form).strip().lower() if legal_form else None
     }
     df = df[df["Комментарий"].isna() | (df["Комментарий"].str.strip() == '')]
     filter_conditions = []
     for col, value in params.items():
         if value and value.lower() != 'none':
         print("Не заданы параметры персонализации.")
         return None
     filter_condition = filter_conditions[0]
     for condition in filter_conditions[1:]:
         filter_condition &= condition
         print("Сообщения с заданными параметрами не найдены.")
         return None
+    # Проверяем, что колонка 'Описание предложения' существует
+    if 'Описание предложения' not in filtered_df.columns:
+        print("Описание предложения отсутствует в данных.")
+        return None
+    # Заменяем NaN на пустые строки в 'Описание предложения'
+    filtered_df['Описание предложения'] = filtered_df['Описание предложения'].fillna('')
+    # Собираем описания для вычисления сходства
+    descriptions = filtered_df['Описание предложения'].tolist()
+    descriptions.insert(0, current_description)  # Добавляем текущее описание в начало списка
+    # Вычисляем TF-IDF векторы и косинусное сходство
+    vectorizer = TfidfVectorizer()
+    tfidf_matrix = vectorizer.fit_transform(descriptions)
+    cosine_similarities = cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:]).flatten()
+    # Находим индекс сообщения с наибольшим сходством
+    most_similar_idx = cosine_similarities.argmax()
+    similar_row = filtered_df.iloc[most_similar_idx]
+    if pd.notnull(similar_row.get("Откорректированное сообщение", None)) and similar_row["Откорректированное сообщение"].strip():
+        reference_message = similar_row["Откорректированное сообщение"]
+    else:
+        reference_message = similar_row.get("Персонализированное сообщение", "")
+    reference_message = re.sub(r'\n-{6,}\nКоличество знаков: \d+', '', reference_message).strip()
     return reference_message
 def adapt_messages_to_best_example(
+    description,
     personalized_gigachat_pro,
     personalized_gigachat_lite,
     personalized_gigachat_plus,
     legal_form = selected_values[5]
     # Получение эталонного сообщения (без изменений)
+    reference_message = get_reference_message(description, gender, generation, psychotype, business_stage, industry, legal_form)
     if not reference_message:
         # Если эталонное сообщение не найдено
         yield adapted_gigachat_pro_display, adapted_gigachat_lite_display, adapted_gigachat_plus_display, adapted_gpt4o_display, adapted_meta_llama_405b_display
+def update_best_example_prompt(description, *selected_values):
     # Extract personalization parameters
     gender = selected_values[0]
     generation = selected_values[1]
     legal_form = selected_values[5]
     # Retrieve the reference message
+    reference_message = get_reference_message(description, gender, generation, psychotype, business_stage, industry, legal_form)
     if not reference_message:
         # No reference message found