Files changed (1) hide show
  1. README.md +52 -12
README.md CHANGED
@@ -1,12 +1,52 @@
1
- ---
2
- title: Recs Series
3
- emoji:
4
- colorFrom: red
5
- colorTo: red
6
- sdk: streamlit
7
- sdk_version: 1.40.2
8
- app_file: app.py
9
- pinned: false
10
- ---
11
-
12
- Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ##Описание проекта
2
+
3
+ Сегодняшний поиск на стриминговом сервисе происходит только по режиссёру, актёрам и названию сериала, при этом не учитывается описание сериала, которое может содержать ценную информацию для пользовательского запроса. Этот проект направлен на сбор выборки из не менее 5000 описаний сериалов и построение системы поиска наиболее подходящих под пользовательский запрос вариантов.
4
+
5
+ ##Язык описаний
6
+ Описания сериалов собирались на русском языке
7
+
8
+ ##Требования
9
+
10
+ Чтобы запустить сервис, необходимо установить следующие зависимости:
11
+ streamlit
12
+ sentence-transformers
13
+ faiss-cpu
14
+ pandas
15
+ numpy
16
+ requests
17
+ pillow
18
+
19
+ Чтобы установить все зависимости, необходимо выполнить команду:
20
+ **pip install -r requirements.txt**
21
+
22
+
23
+ ##Сбор данных и обработка
24
+
25
+ Для начала работы было необходимо собрать данные с описаниями сериалов. Для этого использовали парсинг сайта https://myshows.me/, было собрано около 10 000 описаний к разным сериалам. Важной частью являлась обработка текста, например, удаление скрытых символов и фраз по типу "ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ" и т.п.
26
+
27
+ ##Модель
28
+
29
+ Для получения эмбеддингов использовалась языковая модель - [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2)
30
+
31
+ ##Использование и запуск сервиса
32
+
33
+ Чтобы запустить сервис, выполните команду:
34
+ streamlit run app.py
35
+
36
+ Далее откройте браузер и перейдите по адресу, указанному в терминале.
37
+
38
+ ##Ввод запроса
39
+ 1. Введите ваш запрос в текстовое поле "Введите описание сериала"
40
+ 2. Установите ползунок в диапазоне от 1 до 10 для рекомендации необходимого количества сериалов
41
+
42
+ ##Результаты поиска
43
+ Сервис вернёт список сериалов, отсортированных по метрике - косинусному сходству, к вашему запросу.
44
+
45
+ ##Структура репозитория
46
+
47
+ app.py — главный файл приложения.
48
+ clean_series_data.csv — файл с описаниями сериалов.
49
+ embeddings.npy - полученные эмбеддинги
50
+ requirements.txt — файл с перечнем зависимостей.
51
+ README.md — этот файл с описанием проекта и инструкцией по запуска
52
+