Spaces:
Sleeping
Sleeping
title: Recs Series | |
emoji: ⚡ | |
colorFrom: red | |
colorTo: red | |
sdk: streamlit | |
sdk_version: 1.40.2 | |
app_file: app.py | |
pinned: false | |
Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference | |
## Описание проекта | |
Сегодняшний поиск на стриминговом сервисе происходит только по режиссёру, актёрам и названию сериала, при этом не учитывается описание сериала, которое может содержать ценную информацию для пользовательского запроса. Этот проект направлен на сбор выборки из не менее 5000 описаний сериалов и построение системы поиска наиболее подходящих под пользовательский запрос вариантов. | |
## Язык описаний | |
Описания сериалов собирались на русском языке | |
## Требования | |
Чтобы запустить сервис, необходимо установить следующие зависимости: | |
- streamlit | |
- sentence-transformers | |
- faiss-cpu | |
- pandas | |
- numpy | |
- requests | |
- pillow | |
Чтобы установить все зависимости, необходимо выполнить команду: | |
**pip install -r requirements.txt** | |
## Сбор данных и обработка | |
Для начала работы было необходимо собрать данные с описаниями сериалов. Для этого использовали парсинг [сайта](https://myshows.me/), было собрано около 10 000 описаний к разным сериалам. Важной частью являлась обработка текста, например, удаление скрытых символов и фраз по типу "ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ" и т.п. | |
## Модель | |
Для получения эмбеддингов использовалась языковая модель - [cointegrated/rubert-tiny2](https://huggingface.co/cointegrated/rubert-tiny2) | |
## Использование и запуск сервиса | |
Чтобы запустить сервис, выполните команду: | |
streamlit run app.py | |
Далее откройте браузер и перейдите по адресу, указанному в терминале. | |
## Ввод запроса | |
1. Введите ваш запрос в текстовое поле "Введите описание сериала" | |
2. Установите ползунок в диапазоне от 1 до 10 для рекомендации необходимого количества сериалов | |
## Результаты поиска | |
Сервис вернёт список сериалов, отсортированных по метрике - косинусному сходству, к вашему запросу. | |
## Структура репозитория | |
- app.py — главный файл приложения | |
- clean_series_data.csv — файл с описаниями сериалов | |
- embeddings.npy - полученные эмбеддинги | |
- requirements.txt — файл с перечнем зависимостей | |
- README.md — этот файл с описанием проекта и инструкцией по запуску | |