Spaces:
Sleeping
Sleeping
Upload README.md
#1
by
Zemviera
- opened
README.md
CHANGED
@@ -1,12 +1,52 @@
|
|
1 |
-
|
2 |
-
|
3 |
-
|
4 |
-
|
5 |
-
|
6 |
-
|
7 |
-
|
8 |
-
|
9 |
-
|
10 |
-
|
11 |
-
|
12 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
##Описание проекта
|
2 |
+
|
3 |
+
Сегодняшний поиск на стриминговом сервисе происходит только по режиссёру, актёрам и названию сериала, при этом не учитывается описание сериала, которое может содержать ценную информацию для пользовательского запроса. Этот проект направлен на сбор выборки из не менее 5000 описаний сериалов и построение системы поиска наиболее подходящих под пользовательский запрос вариантов.
|
4 |
+
|
5 |
+
##Язык описаний
|
6 |
+
Описания сериалов собирались на русском языке
|
7 |
+
|
8 |
+
##Требования
|
9 |
+
|
10 |
+
Чтобы запустить сервис, необходимо установить следующие зависимости:
|
11 |
+
streamlit
|
12 |
+
sentence-transformers
|
13 |
+
faiss-cpu
|
14 |
+
pandas
|
15 |
+
numpy
|
16 |
+
requests
|
17 |
+
pillow
|
18 |
+
|
19 |
+
Чтобы установить все зависимости, необходимо выполнить команду:
|
20 |
+
**pip install -r requirements.txt**
|
21 |
+
|
22 |
+
|
23 |
+
##Сбор данных и обработка
|
24 |
+
|
25 |
+
Для начала работы было необходимо собрать данные с описаниями сериалов. Для этого использовали парсинг сайта https://myshows.me/, было собрано около 10 000 описаний к разным сериалам. Важной частью являлась обработка текста, например, удаление скрытых символов и фраз по типу "ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ" и т.п.
|
26 |
+
|
27 |
+
##Модель
|
28 |
+
|
29 |
+
Для получения эмбеддингов использовалась языковая модель - [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2)
|
30 |
+
|
31 |
+
##Использование и запуск сервиса
|
32 |
+
|
33 |
+
Чтобы запустить сервис, выполните команду:
|
34 |
+
streamlit run app.py
|
35 |
+
|
36 |
+
Далее откройте браузер и перейдите по адресу, указанному в терминале.
|
37 |
+
|
38 |
+
##Ввод запроса
|
39 |
+
1. Введите ваш запрос в текстовое поле "Введите описание сериала"
|
40 |
+
2. Установите ползунок в диапазоне от 1 до 10 для рекомендации необходимого количества сериалов
|
41 |
+
|
42 |
+
##Результаты поиска
|
43 |
+
Сервис вернёт список сериалов, отсортированных по метрике - косинусному сходству, к вашему запросу.
|
44 |
+
|
45 |
+
##Структура репозитория
|
46 |
+
|
47 |
+
app.py — главный файл приложения.
|
48 |
+
clean_series_data.csv — файл с описаниями сериалов.
|
49 |
+
embeddings.npy - полученные эмбеддинги
|
50 |
+
requirements.txt — файл с перечнем зависимостей.
|
51 |
+
README.md — этот файл с описанием проекта и инструкцией по запуска
|
52 |
+
|