recs_series / README.md
DanilO0o's picture
Update README.md
c07acd5 verified

A newer version of the Streamlit SDK is available: 1.42.2

Upgrade
metadata
title: Recs Series
emoji: 
colorFrom: red
colorTo: red
sdk: streamlit
sdk_version: 1.40.2
app_file: app.py
pinned: false

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

Описание проекта

Сегодняшний поиск на стриминговом сервисе происходит только по режиссёру, актёрам и названию сериала, при этом не учитывается описание сериала, которое может содержать ценную информацию для пользовательского запроса. Этот проект направлен на сбор выборки из не менее 5000 описаний сериалов и построение системы поиска наиболее подходящих под пользовательский запрос вариантов.

Язык описаний

Описания сериалов собирались на русском языке

Требования

Чтобы запустить сервис, необходимо установить следующие зависимости:

  • streamlit
  • sentence-transformers
  • faiss-cpu
  • pandas
  • numpy
  • requests
  • pillow

Чтобы установить все зависимости, необходимо выполнить команду: pip install -r requirements.txt

Сбор данных и обработка

Для начала работы было необходимо собрать данные с описаниями сериалов. Для этого использовали парсинг сайта, было собрано около 10 000 описаний к разным сериалам. Важной частью являлась обработка текста, например, удаление скрытых символов и фраз по типу "ПОЖАЛУЙСТА, ОБРАТИТЕ ВНИМАНИЕ" и т.п.

Модель

Для получения эмбеддингов использовалась языковая модель - cointegrated/rubert-tiny2

Использование и запуск сервиса

Чтобы запустить сервис, выполните команду: streamlit run app.py

Далее откройте браузер и перейдите по адресу, указанному в терминале.

Ввод запроса

  1. Введите ваш запрос в текстовое поле "Введите описание сериала"
  2. Установите ползунок в диапазоне от 1 до 10 для рекомендации необходимого количества сериалов

Результаты поиска

Сервис вернёт список сериалов, отсортированных по метрике - косинусному сходству, к вашему запросу.

Структура репозитория

  • app.py — главный файл приложения
  • clean_series_data.csv — файл с описаниями сериалов
  • embeddings.npy - полученные эмбеддинги
  • requirements.txt — файл с перечнем зависимостей
  • README.md — этот файл с описанием проекта и инструкцией по запуску