RMakushkin commited on
Commit
973f02b
·
1 Parent(s): 082865b

Upload 02_🔥_Results (2).py

Browse files
Files changed (1) hide show
  1. pages/02_🔥_Results (2).py +39 -0
pages/02_🔥_Results (2).py ADDED
@@ -0,0 +1,39 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import streamlit as st
2
+ from PIL import Image, ImageOps
3
+ import matplotlib.pyplot as plt
4
+
5
+ st.write("""
6
+ ## 📝 Итоги проекта Рекомендательные системы.
7
+ """)
8
+ """
9
+ ###### 1. Парсинг профильных сайтов, итоговый с kino.mail.ru.
10
+ """
11
+
12
+ st.image('images/mem.jpg', width=400)
13
+
14
+ """
15
+ ###### 2. Сбор и анализ информации с киносервисов. Формирование датасета. Итоговый размер - 14939 объектов.
16
+ """
17
+ col1, col2 = st.columns(2)
18
+
19
+ with col1:
20
+ st.image('images/1.jpeg')
21
+
22
+ with col2:
23
+ st.image('images/2.jpeg')
24
+ # st.image('images/1.png')
25
+
26
+ """
27
+ ###### 3. Предобработка данных от лишных символов и пропусков.
28
+ """
29
+ st.image('images/3.jpeg')
30
+ st.image('images/4.jpeg')
31
+
32
+ """
33
+ ###### 4. Векторизация с использованием очередной модели RuBERT
34
+ """
35
+ st.write("По классике использовался rubert-base-cased-sentence от DeepPavlov")
36
+ st.write("Предобученная на русском датасете модель для классификации текстов")
37
+ st.write("Показала себя лучше, чем узкопрофильные модели от sentence_tran, т.к. они мультиязычные и имеют меньший словарный запас")
38
+ st.write("rubert_tiny_2 также показал себя не с лучшей стороны")
39
+ st.write("По процессу все стандартно, токенизация, пэдинг, обрезание...вектор")