Spaces:

DanilO0o
/

Recommendations

Sleeping

App Files Files Community

DanilO0o commited on Dec 6, 2024

Commit

09c26e9

1 Parent(s): f4650c9

second version of app

Browse files

Files changed (7) hide show

.gitattributes +1 -0
README.md +52 -1
app.py +121 -0
clean_series_data.csv +3 -0
embeddings.npy +3 -0
pages/model_w_clustering.py +137 -0
requirements.txt +8 -0

.gitattributes CHANGED Viewed

@@ -2,6 +2,7 @@
 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text

 *.arrow filter=lfs diff=lfs merge=lfs -text
 *.bin filter=lfs diff=lfs merge=lfs -text
 *.bz2 filter=lfs diff=lfs merge=lfs -text
+*.csv filter=lfs diff=lfs merge=lfs -text
 *.ckpt filter=lfs diff=lfs merge=lfs -text
 *.ftz filter=lfs diff=lfs merge=lfs -text
 *.gz filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -9,4 +9,55 @@ app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 pinned: false
 ---
+## Описание проекта
+Сегодняшний поиск на стриминговом сервисе происходит только по режиссёру, актёрам и названию сериала, при этом не учитывается описание сериала, которое может содержать ценную информацию для пользовательского запроса. Этот проект направлен на сбор выборки из не менее 5000 описаний сериалов и построение системы поиска наиболее подходящих под пользовательский запрос вариантов.
+## Язык описаний
+Описания сериалов собирались на русском языке
+## Требования
+Чтобы запустить сервис, необходимо установить следующие зависимости:
+- streamlit
+- sentence-transformers
+- faiss-cpu
+- pandas
+- numpy
+- requests
+- pillow
+Чтобы установить все зависимости, необходимо выполнить команду:
+**pip install -r requirements.txt**
+## Сбор данных и обработка
+Для начала работы было необходимо собрать данные с описаниями сериалов. Для этого использовали парсинг [сайта](https://myshows.me/), было собрано около 10 000 описаний к разным сериалам. Важной частью являлась обработка текста, например, удаление скрытых символов и фраз по типу "ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ" и т.п.
+## Модель
+Для получения эмбеддингов использовалась языковая модель - [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2)
+## Использование и запуск сервиса
+Чтобы запустить сервис, выполните команду:
+streamlit run app.py
+Далее откройте браузер и перейдите по адресу, указанному в терминале.
+## Ввод запроса
+1. Введите ваш запрос в текстовое поле "Введите описание сериала"
+2. Установите ползунок в диапазоне от 1 до 10 для рекомендации необходимого количества сериалов
+## Результаты поиска
+Сервис вернёт список сериалов, отсортированных по метрике - косинусному сходству, к вашему запросу.
+## Структура репозитория
+- app.py — главный файл приложения
+- clean_series_data.csv — файл с описаниями сериалов
+- embeddings.npy - полученные эмбеддинги
+- requirements.txt — файл с перечнем зависимостей
+- README.md — этот файл с описанием проекта и инструкцией по запуску

app.py ADDED Viewed

	@@ -0,0 +1,121 @@

+import pandas as pd
+from sentence_transformers import SentenceTransformer
+import faiss
+import numpy as np
+import streamlit as st
+import requests
+from PIL import Image
+from io import BytesIO
+from langchain_community.chat_models.gigachat import GigaChat
+st.title('Рекомендации сериалов по описанию пользователя с помощью асимметричного семантического поиска')
+st.divider()
+df = pd.read_csv('clean_series_data.csv')
+embeddings = np.load('embeddings.npy')
+def load_image_from_url(url):
+    try:
+        response = requests.get(url)
+        response.raise_for_status()
+        return Image.open(BytesIO(response.content))
+    except Exception as e:
+        st.error(f"Не удалось загрузить изображение: {e}")
+        return None
+model = SentenceTransformer('cointegrated/rubert-tiny2')
+model.cpu()
+# embeddings_desc = df['Описание'].apply(lambda x: model.encode(x))
+# embeddings_gan = df['Жанры'].apply(lambda x: model.encode(x))
+# embeddings = embeddings_desc + embeddings_gan
+metric = st.radio('Выберите метрику для поиска', [
+                  'Евклидово расстояние', 'Косинусное сходство'])
+if metric == 'Евклидово расстояние':
+    embeddings = np.array(embeddings).astype(np.float32)
+    faiss.normalize_L2(embeddings)
+    dimension = embeddings.shape[1]
+    index = faiss.IndexFlatL2(dimension)
+    index.add(embeddings)
+    button = st.button('Вывести результаты')
+    query = [st.text_area('Введите описание сериала')]
+    if button:
+        if query:
+            query_embedding = model.encode(query).astype(np.float32)
+            # Две строки ниже можно будет убрать
+            # query_embedding = np.array(
+            #     query_embedding, dtype=np.float32).reshape(1, -1)
+            # faiss.normalize_L2(query_embedding)
+            k = st.slider('Сколько сериалов рекомендовать?',
+                          min_value=1, max_value=10, value=3, step=1)
+            distances, indices = index.search(query_embedding, k)
+            st.subheader('Похожие сериалы:')
+            for i in range(k):
+                url = df.loc[indices[0][i]]["Изображение"]
+                image = load_image_from_url(url)
+                st.image(image)
+                st.write(f'Название: {df.loc[indices[0][i]]["Название"]}')
+                st.write(f'Рейтинг: {df.loc[indices[0][i]]["Рейтинг"]}')
+                st.write(f'Жанр: {df.loc[indices[0][i]]["Жанры"]}')
+                st.write(f'Страна: {df.loc[indices[0][i]]["Страна"]}')
+                st.write(
+                    f'Длительность одной серии: {df.loc[indices[0][i]]["Длительность"]}')
+                st.write(
+                    f'Количество серий: {df.loc[indices[0][i]]["Количество серий"]}')
+                st.write(f'Описание: {df.loc[indices[0][i]]["Описание"]}')
+                st.write(f'Евклидово расстояние: {distances[0][i]:.4f}')
+                st.divider()
+else:
+    embeddings = np.array(embeddings).astype(np.float32)
+    faiss.normalize_L2(embeddings)
+    dimension = embeddings.shape[1]
+    index = faiss.IndexFlatIP(dimension)
+    index.add(embeddings)
+    query = [st.text_area('Введите описание сериала')]
+    button = st.button('Вывести результаты')
+    if button:
+        if query:
+            query_embedding = model.encode(query).astype(np.float32)
+            # Две строки ниже можно будет убрать
+            # query_embedding = np.array(
+            #     query_embedding, dtype=np.float32).reshape(1, -1)
+            # faiss.normalize_L2(query_embedding)
+            k = st.slider('Сколько сериалов рекомендовать?',
+                          min_value=1, max_value=10, value=3, step=1)
+            distances, indices = index.search(query_embedding, k)
+            st.subheader('Похожие сериалы:')
+            for i in range(k):
+                url = df.loc[indices[0][i]]["Изображение"]
+                image = load_image_from_url(url)
+                st.image(image)
+                st.write(f'Название: {df.loc[indices[0][i]]["Название"]}')
+                st.write(f'Рейтинг: {df.loc[indices[0][i]]["Рейтинг"]}')
+                st.write(f'Жанр: {df.loc[indices[0][i]]["Жанры"]}')
+                st.write(f'Страна: {df.loc[indices[0][i]]["Страна"]}')
+                st.write(
+                    f'Длительность одной серии: {df.loc[indices[0][i]]["Длительность"]}')
+                st.write(
+                    f'Количество серий: {df.loc[indices[0][i]]["Количество серий"]}')
+                st.write(f'Описание: {df.loc[indices[0][i]]["Описание"]}')
+                st.write(f'Косинусное сходство: {distances[0][i]:.4f}')
+                st.divider()
+st.subheader(
+    'Генерация краткого содержания сериала с помощью SberGigaChat')
+name_of_series = st.text_input('Введите название сериала')
+gen_button = st.button('Показать краткое содержание')
+giga = GigaChat(
+    credentials='MjA2MGEzNjItZjE0Mi00NWE5LTllMDItMWVjZWRlNDA2ODM0OjNhNzNlZDJmLTY4NWUtNDI1Zi1iZjg4LTkxOWFjMjkxZDg0OA==', verify_ssl_certs=False)
+if gen_button:
+    with st.spinner('Генерация текста...'):
+        st.write(giga.invoke(
+            f"Расскажи cюжет сериала {name_of_series}").content)
+st.divider()

clean_series_data.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:925177133ae0f6561279290bd5bf9e34df1014d8436fb8c05e39ac047412c44a
+size 7397331

embeddings.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f005047f4c848ead774b1db9e0f3f3bc2ec18b0122b188e6770d579fdd71f0b0
+size 8696192

pages/model_w_clustering.py ADDED Viewed

	@@ -0,0 +1,137 @@

+import pandas as pd
+from sentence_transformers import SentenceTransformer
+import faiss
+import numpy as np
+import streamlit as st
+import requests
+from PIL import Image
+from io import BytesIO
+from langchain_community.chat_models.gigachat import GigaChat
+st.title('Рекомендации сериалов по описанию пользователя с помощью симметричного семантического поиска')
+st.divider()
+df = pd.read_csv('clean_series_data.csv')
+embeddings = np.load('embeddings.npy')
+def load_image_from_url(url):
+    try:
+        response = requests.get(url)
+        response.raise_for_status()
+        return Image.open(BytesIO(response.content))
+    except Exception as e:
+        st.error(f"Не удалось загрузить изображение: {e}")
+        return None
+model = SentenceTransformer('cointegrated/rubert-tiny2')
+model.cpu()
+# embeddings_desc = df['Описание'].apply(lambda x: model.encode(x))
+# embeddings_gan = df['Жанры'].apply(lambda x: model.encode(x))
+# embeddings = embeddings_desc + embeddings_gan
+metric = st.radio('Выберите метрику для поиска', [
+                  'Евклидово расстояние', 'Косинусное сходство'])
+if metric == 'Евклидово расстояние':
+    embeddings = np.array(embeddings).astype(np.float32)
+    faiss.normalize_L2(embeddings)
+    dimension = embeddings.shape[1]
+    nlist = 150
+    quantizer = faiss.IndexFlatL2(dimension)
+    index = faiss.IndexIVFFlat(quantizer, dimension, nlist, faiss.METRIC_L2)
+    index.train(embeddings)
+    # index = faiss.IndexFlatIP(dimension)
+    index.add(embeddings)
+    query = [st.text_area('Введите описание сериала')]
+    button = st.button('Вывести результаты')
+    if button:
+        if query:
+            query_embedding = model.encode(query).astype(np.float32)
+            # Две строки ниже можно будет убрать
+            query_embedding = np.array(
+                query_embedding, dtype=np.float32).reshape(1, -1)
+            faiss.normalize_L2(query_embedding)
+            k = st.slider('Сколько сериалов рекомендовать?',
+                          min_value=1, max_value=10, value=3, step=1)
+            distances, indices = index.search(query_embedding, k)
+            st.subheader('Похожие сериалы:')
+            for i in range(k):
+                url = df.loc[indices[0][i]]["Изображение"]
+                image = load_image_from_url(url)
+                st.image(image)
+                st.write(f'Название: {df.loc[indices[0][i]]["Название"]}')
+                st.write(f'Рейтинг: {df.loc[indices[0][i]]["Рейтинг"]}')
+                st.write(f'Жанр: {df.loc[indices[0][i]]["Жанры"]}')
+                st.write(f'Страна: {df.loc[indices[0][i]]["Страна"]}')
+                st.write(
+                    f'Длительность одной серии: {df.loc[indices[0][i]]["Длительность"]}')
+                st.write(
+                    f'Количество серий: {df.loc[indices[0][i]]["Количество серий"]}')
+                st.write(f'Описание: {df.loc[indices[0][i]]["Описание"]}')
+                st.write(f'Евклидово расстояние: {distances[0][i]:.4f}')
+                st.divider()
+else:
+    embeddings = np.array(embeddings).astype(np.float32)
+    faiss.normalize_L2(embeddings)
+    dimension = embeddings.shape[1]
+    nlist = 150
+    quantizer = faiss.IndexFlatIP(dimension)
+    index = faiss.IndexIVFFlat(
+        quantizer, dimension, nlist, faiss.METRIC_INNER_PRODUCT)
+    index.train(embeddings)
+    # index = faiss.IndexFlatIP(dimension)
+    index.add(embeddings)
+    query = [st.text_area('Введите описание сериала')]
+    button = st.button('Вывести результаты')
+    if button:
+        if query:
+            query_embedding = model.encode(query).astype(np.float32)
+            # Две строки ниже можно будет убрать
+            query_embedding = np.array(
+                query_embedding, dtype=np.float32).reshape(1, -1)
+            faiss.normalize_L2(query_embedding)
+            k = st.slider('Сколько сериалов рекомендовать?',
+                          min_value=1, max_value=10, value=3, step=1)
+            distances, indices = index.search(query_embedding, k)
+            st.subheader('Похожие сериалы:')
+            for i in range(k):
+                url = df.loc[indices[0][i]]["Изображение"]
+                image = load_image_from_url(url)
+                st.image(image)
+                st.write(f'Название: {df.loc[indices[0][i]]["Название"]}')
+                st.write(f'Рейтинг: {df.loc[indices[0][i]]["Рейтинг"]}')
+                st.write(f'Жанр: {df.loc[indices[0][i]]["Жанры"]}')
+                st.write(f'Страна: {df.loc[indices[0][i]]["Страна"]}')
+                st.write(
+                    f'Длительность одной серии: {df.loc[indices[0][i]]["Длительность"]}')
+                st.write(
+                    f'Количество серий: {df.loc[indices[0][i]]["Количество серий"]}')
+                st.write(f'Описание: {df.loc[indices[0][i]]["Описание"]}')
+                st.write(f'Косинусное сходство: {distances[0][i]:.4f}')
+                st.divider()
+st.subheader('Генерация краткого содержания сериала с помощью SberGigaChat')
+name_of_series = st.text_input('Введите название сериала')
+gen_button = st.button('Показать краткое содержание')
+giga = GigaChat(
+    credentials='MjA2MGEzNjItZjE0Mi00NWE5LTllMDItMWVjZWRlNDA2ODM0OjNhNzNlZDJmLTY4NWUtNDI1Zi1iZjg4LTkxOWFjMjkxZDg0OA==', verify_ssl_certs=False)
+if gen_button:
+    with st.spinner('Генерация текста...'):
+        st.write(giga.invoke(
+            f"Расскажи cюжет сериала {name_of_series}").content)
+st.divider()

requirements.txt ADDED Viewed

	@@ -0,0 +1,8 @@

+streamlit
+pandas
+sentence_transformers
+faiss-cpu
+numpy
+requests
+pillow
+gigachain_community