Spaces:

fruitpicker01
/

Test_Pipeline_v10

Sleeping

App Files Files Community

fruitpicker01 commited on Dec 20, 2024

Commit

2c6d327

verified ·

1 Parent(s): 64212bc

Update app.py

Browse files

Files changed (1) hide show

app.py +156 -1

app.py CHANGED Viewed

@@ -201,12 +201,167 @@ def clean_message(message):
             message = message[:last_period + 1]
     return message
-def generate_message_with_retry(model_prompt):
     last_message = ""
     for _ in range(10):
         msg = call_model(model_prompt)
         msg = correct_dash_usage(msg)
         msg = clean_message(msg)
         length = len(msg)
         if 160 <= length <= 250:
             msg += f"\n\n------\nКоличество знаков: {length}"

             message = message[:last_period + 1]
     return message
+def tokenize_words(text):
+    """
+    Разбивает текст на слова, игнорируя знаки препинания.
+    """
+    return re.findall(r'\w+', text, re.UNICODE)
+def normalize(word):
+    """
+    Возвращает начальную форму слова с помощью pymorphy3.
+    Приводит к нижнему регистру для унификации.
+    """
+    parsed = morph.parse(word)
+    if parsed:
+        return parsed[0].normal_form.lower()
+    return word.lower()
+def find_word_matches(normalized_msg, normalized_prod):
+    """
+    Находит индексы начала совпадений названия продукта в нормализованных словах.
+    """
+    matches = []
+    prod_len = len(normalized_prod)
+    for i in range(len(normalized_msg) - prod_len + 1):
+        window = normalized_msg[i:i+prod_len]
+        if window == normalized_prod:
+            matches.append(i)
+    return matches
+def get_word_positions(message):
+    """
+    Возвращает список кортежей (слово, start_index, end_index) для каждого слова в сообщении.
+    """
+    word_positions = []
+    for match in re.finditer(r'\w+', message):
+        word = match.group(0)
+        start = match.start()
+        end = match.end()
+        word_positions.append((word, start, end))
+    return word_positions
+def capitalize_sentences(text):
+    """
+    Капитализирует первую букву каждого предложения в тексте.
+    Предложения считаются разделенными точками, восклицательными или вопросительными знаками.
+    """
+    # Разделяем текст на предложения
+    sentence_endings = re.compile(r'([.!?])')
+    parts = sentence_endings.split(text)
+    # Объединяем разделенные части и капитализируем первые буквы
+    sentences = []
+    for i in range(0, len(parts)-1, 2):
+        sentence = parts[i].strip()
+        punctuation = parts[i+1]
+        if sentence:
+            sentence = sentence[0].upper() + sentence[1:]
+            sentences.append(sentence + punctuation)
+    # Обработка возможного остатка текста без завершающего знака
+    if len(parts) % 2 != 0 and parts[-1].strip():
+        last_sentence = parts[-1].strip()
+        last_sentence = last_sentence[0].upper() + last_sentence[1:]
+        sentences.append(last_sentence)
+    # Объединяем обратно в текст
+    return ' '.join(sentences)
+def process_message(message, product_name):
+    """
+    Обрабатывает сообщение, заменяя название продукта.
+    - Первое слово сохраняется в инфлектированной форме, как в сообщении.
+    - Остальные слова заменяются на оригинальные слова из названия продукта, сохраняя их капитализацию.
+    Возвращает обработанное сообщение.
+    """
+    # Токенизация сообщения (без пунктуации)
+    message_words = tokenize_words(message)
+    normalized_message = [normalize(word) for word in message_words]
+    # Токенизация названия продукта
+    product_words_original = tokenize_words(product_name)  # Оригинальные слова с капитализацией
+    normalized_product = [normalize(word) for word in product_words_original]
+    # Поиск совпадений
+    matches = find_word_matches(normalized_message, normalized_product)
+    if not matches:
+        # Если совпадений нет, вернуть исходное сообщение с капитализацией предложений
+        return capitalize_sentences(message)
+    # Получаем позиции всех слов в сообщении
+    word_positions = get_word_positions(message)
+    # Обработка каждого совпадения
+    # Для избежания смещения индексов при множественных заменах, обрабатываем с конца
+    matches_sorted = sorted(matches, reverse=True)
+    final_message = message
+    for match in matches_sorted:
+        # Индексы слов
+        start_word_idx = match
+        end_word_idx = match + len(product_words_original) - 1
+        # Проверка, чтобы индексы не выходили за пределы списка
+        if end_word_idx >= len(word_positions):
+            continue  # Пропускаем некоррект��ые совпадения
+        # Получаем позиции слов
+        start_char = word_positions[start_word_idx][1]
+        end_char = word_positions[end_word_idx][2]
+        # Проверяем, есть ли знаки препинания перед совпадением
+        if start_char > 0 and final_message[start_char -1] in ['«', '»', '-', '–', '.', ',', '!', '?', ';', ':']:
+            start_char -=1  # Включаем знак препинания в изменяемую часть
+        # Проверяем, есть ли знаки препинания после совпадения
+        if end_char < len(final_message) and final_message[end_char] in ['«', '»', '-', '–', '.', ',', '!', '?', ';', ':']:
+            end_char +=1  # Включаем знак препинания в изменяемую часть
+        # Извлечение изменяемой части
+        matched_substring = final_message[start_char:end_char]
+        # Извлечение неизменяемой части
+        before = final_message[:start_char]
+        after = final_message[end_char:]
+        # Разделяем изменяемую часть на слова
+        words = matched_substring.replace('«', '').replace('»', '').strip().split()
+        if len(words) < len(product_words_original):
+            # Несоответствие количества слов, пропускаем замену
+            continue
+        # Сохраняем первое слово как есть (инфлектированное)
+        first_word = words[0]
+        # Остальные слова берем из оригинального названия продукта
+        replaced_words = [first_word] + product_words_original[1:]
+        # Собираем обратно измененную часть
+        processed = ' '.join(replaced_words)
+        # Воссоединяем части сообщения
+        final_message = before + processed + after
+    # Удаляем лишние пробелы
+    final_message = re.sub(r'\s+', ' ', final_message).strip()
+    # Капитализируем предложения
+    final_message = capitalize_sentences(final_message)
+    return final_message
+def generate_message_with_retry(model_prompt, product_name):
     last_message = ""
+    morph = pymorphy3.MorphAnalyzer()
     for _ in range(10):
         msg = call_model(model_prompt)
         msg = correct_dash_usage(msg)
         msg = clean_message(msg)
+        msg = process_message(msg)
         length = len(msg)
         if 160 <= length <= 250:
             msg += f"\n\n------\nКоличество знаков: {length}"