Spaces:
Sleeping
Sleeping
Commit
·
973f02b
1
Parent(s):
082865b
Upload 02_🔥_Results (2).py
Browse files- pages/02_🔥_Results (2).py +39 -0
pages/02_🔥_Results (2).py
ADDED
@@ -0,0 +1,39 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
import streamlit as st
|
2 |
+
from PIL import Image, ImageOps
|
3 |
+
import matplotlib.pyplot as plt
|
4 |
+
|
5 |
+
st.write("""
|
6 |
+
## 📝 Итоги проекта Рекомендательные системы.
|
7 |
+
""")
|
8 |
+
"""
|
9 |
+
###### 1. Парсинг профильных сайтов, итоговый с kino.mail.ru.
|
10 |
+
"""
|
11 |
+
|
12 |
+
st.image('images/mem.jpg', width=400)
|
13 |
+
|
14 |
+
"""
|
15 |
+
###### 2. Сбор и анализ информации с киносервисов. Формирование датасета. Итоговый размер - 14939 объектов.
|
16 |
+
"""
|
17 |
+
col1, col2 = st.columns(2)
|
18 |
+
|
19 |
+
with col1:
|
20 |
+
st.image('images/1.jpeg')
|
21 |
+
|
22 |
+
with col2:
|
23 |
+
st.image('images/2.jpeg')
|
24 |
+
# st.image('images/1.png')
|
25 |
+
|
26 |
+
"""
|
27 |
+
###### 3. Предобработка данных от лишных символов и пропусков.
|
28 |
+
"""
|
29 |
+
st.image('images/3.jpeg')
|
30 |
+
st.image('images/4.jpeg')
|
31 |
+
|
32 |
+
"""
|
33 |
+
###### 4. Векторизация с использованием очередной модели RuBERT
|
34 |
+
"""
|
35 |
+
st.write("По классике использовался rubert-base-cased-sentence от DeepPavlov")
|
36 |
+
st.write("Предобученная на русском датасете модель для классификации текстов")
|
37 |
+
st.write("Показала себя лучше, чем узкопрофильные модели от sentence_tran, т.к. они мультиязычные и имеют меньший словарный запас")
|
38 |
+
st.write("rubert_tiny_2 также показал себя не с лучшей стороны")
|
39 |
+
st.write("По процессу все стандартно, токенизация, пэдинг, обрезание...вектор")
|