Spaces:

HaggiVaggi
/

movie_rec

Sleeping

App Files Files Community

HaggiVaggi commited on Dec 14, 2023

Commit

fa7222f

1 Parent(s): 9b47e1a

updated test

Browse files

Files changed (1) hide show

app.py +35 -0

app.py CHANGED Viewed

@@ -1,6 +1,13 @@
 import streamlit as st
 import pandas as pd
 import numpy as np
@@ -44,3 +51,31 @@ if page == "Главная":
     # Вывод на страничке Streamlit
         st.write("Случайные 10 фильмов")
         st.write(random_rows)

 import streamlit as st
 import pandas as pd
 import numpy as np
+from sklearn.metrics.pairwise import cosine_similarity
+from sentence_transformers import SentenceTransformer, util
+from transformers import AutoTokenizer, AutoModel
+import faiss
+from sentence_transformers import SentenceTransformer, InputExample, losses
+from torch.utils.data import DataLoader
     # Вывод на страничке Streamlit
         st.write("Случайные 10 фильмов")
         st.write(random_rows)
+if page == "какая-то еще":
+    # Загрузка предварительно обученной модели ruBERT
+    tokenizer = AutoTokenizer.from_pretrained("DeepPavlov/rubert-base-cased-sentence")
+    model = AutoModel.from_pretrained("DeepPavlov/rubert-base-cased-sentence")
+    def encode_description(description):
+    tokens = tokenizer(description, return_tensors="pt")
+    with torch.no_grad():
+        outputs = model(**tokens)
+    embeddings = outputs.last_hidden_state.mean(dim=1)
+    return embeddings
+    embeddings = pd.read_pickle('embeddings.pkl')
+    user_input = st.text_area('Введите описание фильма')
+    input_embedding = encode_description(user_input)
+    mbeddings_tensor = torch.stack(df['description_embedding'].tolist()).numpy()
+# Рассчитайте косинусное сходство
+    similarity_scores = cosine_similarity(input_embedding.view(1, -1).detach().numpy(), embeddings_tensor.reshape(embeddings_tensor.shape[0], -1))[0]
+# Получение индексов отсортированных значений
+    sorted_indices = similarity_scores.argsort()[::-1]
+# Используйте индексы для извлечения строк из DataFrame
+    recs = df.iloc[sorted_indices[:10]].reset_index(drop=True)
+    recs.index = recs.index + 1
+    st.write(recs[['movie_title', 'description']])