Spaces:

Shchushch
/

find_me_book

Runtime error

App Files Files Community

Shchushch commited on Sep 1, 2023

Commit

0dc87bc

1 Parent(s): cce9310

easy2

Browse files

Files changed (2) hide show

find.py +179 -0
russian.txt +422 -0

find.py ADDED Viewed

	@@ -0,0 +1,179 @@

+import torch
+import pandas as pd
+from transformers import AutoTokenizer, AutoModel,BertTokenizer,BertModel
+import numpy as np
+import pickle
+# import sklearn
+from nltk.stem import WordNetLemmatizer
+from nltk.tag import pos_tag
+from nltk.corpus import stopwords
+from pymystem3 import Mystem
+from functools import lru_cache
+import string
+import faiss
+from tqdm import tqdm
+tokenizer =  AutoTokenizer.from_pretrained("cointegrated/rubert-tiny2")
+model = AutoModel.from_pretrained("cointegrated/rubert-tiny2")
+eng_stop_words = stopwords.words('english')
+with open('russian.txt', 'r') as f:
+    ru_stop_words = f.read()
+ru_stop_words=ru_stop_words.split('\n')
+allow="ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюя0123456789-' \n\t"
+#Задаём стеммер
+m= Mystem()
+def embed_bert_cls(text, model=model, tokenizer=tokenizer)->np.array:
+    """
+    Встраивает входной текст с использованием модели на основе BERT.
+    Аргументы:
+        text (str): Входной текст для встраивания.
+        model (torch.nn.Module): Модель на основе BERT для использования при встраивании.
+        tokenizer (transformers.PreTrainedTokenizer): Токенизатор для токенизации текста.
+    Возвращает:
+        numpy.ndarray: Встроенное представление входного текста.
+    """
+    # Токенизируем текст и преобразуем его в PyTorch тензоры
+    t = tokenizer(text, padding=True, truncation=True, return_tensors='pt')
+    # Отключаем вычисление градиентов
+    with torch.no_grad():
+        # Пропускаем тензоры через модель
+        model_output = model(**{k: v.to(model.device) for k, v in t.items()})
+    # Извлекаем последний скрытый состояние из выходных данных модели
+    embeddings = model_output.last_hidden_state[:, 0, :]
+    # Нормализуем встроенные представления
+    embeddings = torch.nn.functional.normalize(embeddings)
+    embeddings=embeddings[0].cpu().numpy()
+    # Преобразуем встроенные представления в массив numpy и возвращаем первый элемент
+    return embeddings
+def lems_eng(text):
+    if type(text)==type('text'):
+        text=text.split()
+    wnl= WordNetLemmatizer()
+    lemmatized= []
+    pos_map = {
+        'NN': 'n',  # существительное
+        'NNS': 'n',  # существительное (множественное число)
+        'NNP': 'n',  # собственное имя (единственное число)
+        'NNPS': 'n',  # собственное имя (множественное число)
+        'VB': 'v',  # глагол (инфинитив)
+        'VBD': 'v',  # глагол (прошедшее время)
+        'VBG': 'v',  # глагол (настоящее причастие/герундий)
+        'VBN': 'v',  # глагол (прошедшее причастие)
+        'JJ': 'a',  # прилагательное
+        'JJR': 'a',  # прилагательное (сравнительная степень)
+        'JJS': 'a',  # прилагательное (превосходная степень)
+        'RB': 'r',  # наречие
+        'RBR': 'r',  # наречие (сравнительная степень)
+        'RBS': 'r',  # наречие (превосходная степень)
+        'PRP': 'n',  # личное местоимение
+        'PRP$': 'n',  # притяжательное местоимение
+        'DT': 'n'  # определитель
+    }
+    pos_tags = pos_tag(text)
+    lemmas = []
+    for token, pos in pos_tags:
+        pos = pos_map.get(pos,'n')
+        lemma = wnl.lemmatize(token, pos=pos)
+        lemmas.append(lemma)
+    return ' '.join(lemmas)
+def lems_rus(texts):
+    if type(texts)==type([]):
+        texts=' '.join(texts)
+    #lemmatized =[]
+    lemmas = m.lemmatize(texts)
+    return ''.join(lemmas)
+def clean(text: str)-> str:
+    text = ''.join(c for c in text if c in allow)
+    text= text.split()
+    text = [word for word in text if word.lower() not in ru_stop_words]
+    text = [word for word in text if word.lower() not in eng_stop_words]
+    return ' '.join(text)
+def improved_lemmatizer(texts,batch_size=1000):
+    if type(texts)==type('text'):
+        texts=texts.split()
+#Читаем датасет книжек
+df=pd.read_csv('final+lem.csv',index_col=0).reset_index(drop=True)
+# embs=[]
+# for i in tqdm(df.index):
+#     embs.append(embed_bert_cls(df['annotation'][i]))
+# with open('embs.pickle', 'wb') as f:
+#     pickle.dump(embs, f)
+#Читаем эмбединги
+with open('embs.pickle', 'rb') as f:
+    embs = pickle.load(f)
+#df['']
+embs =np.array(embs)
+print('Тип выхода:',type(embs),'Размер выхода: ',embs.shape)
+#Читаем стоп-слова
+index=faiss.IndexFlatL2(embs.shape[1])
+index.add(embs)
+@lru_cache()
+def find_similar(text, k=10):
+    """
+    Находит похожие тексты на основе косинусного сходства.
+    Аргументы:
+        text (str): Входной текст для поиска похожих текстов.
+        embeddings (numpy.ndarray): Предварительно вычисленные встроенные представления текстов.
+        threshold (float): Порог, выше которого тексты считаются похожими.
+    Возвращает:
+        numpy.ndarray: Сходства между входным текстом и каждым текстом во встроенных представлениях.
+    """
+    # Встраиваем входной текст
+    text_emb = embed_bert_cls(text)
+    print('Текстовые эмбединги\t',text_emb )
+    text_emb = np.expand_dims(text_emb, axis=0)
+    print(f'Тип поискового запроса: {type(text_emb)}\nРазмер полученного запроса: {text_emb.shape}')#\nСам запрос:\n{text_emb}\n')
+    dist,idx=index.search(text_emb,k)
+    return dist.squeeze(),idx.squeeze()#,idx
+#@lru_cache()
+# def find_unsimilar(text,n=10, d=embs.shape[0]):
+#     """
+#     Находит похожие тексты на основе косинусного сходства.
+#     Аргументы:
+#         text (str): Входной текст для поиска похожих текстов.
+#         embeddings (numpy.ndarray): Предварительно вычисленные встроенные представления текстов.
+#         threshold (float): Порог, выше которого тексты считаются похожими.
+#     Возвращает:
+#         numpy.ndarray: Сходства между входным текстом и каждым текстом во встроенных представлениях.
+#     """
+#     # Встраиваем входной текст
+#     text_emb = embed_bert_cls(text)
+#     text_emb = np.expand_dims(text_emb, axis=0)
+#     print(f'Тип поискового запроса: {type(text_emb)}\nРазмер полученного запроса: {text_emb.shape}')#\nСам запрос:\n{text_emb}\n')
+#     dist,idx=index.search(text_emb,d)
+#     dist=dist.flatten()[::-1]
+#     idx=idx.flatten()[::-1]
+#     return dist[:n],idx[:n]#,idx

russian.txt ADDED Viewed

	@@ -0,0 +1,422 @@

+а
+в
+г
+е
+ж
+и
+к
+м
+о
+с
+т
+у
+я
+бы
+во
+вы
+да
+до
+ее
+ей
+ею
+её
+же
+за
+из
+им
+их
+ли
+мы
+на
+не
+ни
+но
+ну
+нх
+об
+он
+от
+по
+со
+та
+те
+то
+ту
+ты
+уж
+без
+был
+вам
+вас
+ваш
+вон
+вот
+все
+всю
+вся
+всё
+где
+год
+два
+две
+дел
+для
+его
+ему
+еще
+ещё
+или
+ими
+имя
+как
+кем
+ком
+кто
+лет
+мне
+мог
+мож
+мои
+мой
+мор
+моя
+моё
+над
+нам
+нас
+наш
+нее
+ней
+нем
+нет
+нею
+неё
+них
+оба
+она
+они
+оно
+под
+пор
+при
+про
+раз
+сам
+сих
+так
+там
+тем
+тех
+том
+тот
+тою
+три
+тут
+уже
+чем
+что
+эта
+эти
+это
+эту
+алло
+буду
+будь
+бывь
+была
+были
+было
+быть
+вами
+ваша
+ваше
+ваши
+ведь
+весь
+вниз
+всем
+всех
+всею
+года
+году
+даже
+двух
+день
+если
+есть
+зато
+кого
+кому
+куда
+лишь
+люди
+мало
+меля
+меня
+мимо
+мира
+мной
+мною
+мочь
+надо
+нами
+наша
+наше
+наши
+него
+нему
+ниже
+ними
+один
+пока
+пора
+пять
+рано
+сама
+сами
+само
+саму
+свое
+свои
+свою
+себе
+себя
+семь
+стал
+суть
+твой
+твоя
+твоё
+тебе
+тебя
+теми
+того
+тоже
+тому
+туда
+хоть
+хотя
+чаще
+чего
+чему
+чтоб
+чуть
+этим
+этих
+этой
+этом
+этот
+более
+будем
+будет
+будто
+будут
+вверх
+вдали
+вдруг
+везде
+внизу
+время
+всего
+всеми
+всему
+всюду
+давно
+даром
+долго
+друго
+жизнь
+занят
+затем
+зачем
+здесь
+иметь
+какая
+какой
+книга
+когда
+кроме
+лучше
+между
+менее
+много
+могут
+может
+можно
+можхо
+назад
+низко
+нужно
+одной
+около
+опять
+очень
+перед
+позже
+после
+потом
+почти
+пятый
+разве
+рядом
+самим
+самих
+самой
+самом
+своей
+своих
+сеаой
+снова
+собой
+собою
+такая
+также
+такие
+такое
+такой
+тобой
+тобою
+тогда
+тысяч
+уметь
+часто
+через
+чтобы
+шесть
+этими
+этого
+этому
+близко
+больше
+будете
+будешь
+бывает
+важная
+важное
+важные
+важный
+вокруг
+восемь
+всегда
+второй
+далеко
+дальше
+девять
+десять
+должно
+другая
+другие
+других
+другое
+другой
+занята
+занято
+заняты
+значит
+именно
+иногда
+каждая
+каждое
+каждые
+каждый
+кругом
+меньше
+начала
+нельзя
+нибудь
+никуда
+ничего
+обычно
+однако
+одного
+отсюда
+первый
+потому
+почему
+просто
+против
+раньше
+самими
+самого
+самому
+своего
+сейчас
+сказал
+совсем
+теперь
+только
+третий
+хорошо
+хотеть
+хочешь
+четыре
+шестой
+восьмой
+впрочем
+времени
+говорил
+говорит
+девятый
+десятый
+кажется
+конечно
+которая
+которой
+которые
+который
+которых
+наверху
+наконец
+недавно
+немного
+нередко
+никогда
+однажды
+посреди
+сегодня
+седьмой
+сказала
+сказать
+сколько
+слишком
+сначала
+спасибо
+человек
+двадцать
+довольно
+которого
+наиболее
+недалеко
+особенно
+отовсюду
+двадцатый
+миллионов
+несколько
+прекрасно
+процентов
+четвертый
+двенадцать
+непрерывно
+пожалуйста
+пятнадцать
+семнадцать
+тринадцать
+двенадцатый
+одиннадцать
+пятнадцатый
+семнадцатый
+тринадцатый
+шестнадцать
+восемнадцать
+девятнадцать
+одиннадцатый
+четырнадцать
+шестнадцатый
+восемнадцатый
+девятнадцатый
+действительно
+четырнадцатый
+многочисленная
+многочисленное
+многочисленные
+многочисленный