Spaces:

HarryLee
/

TextTopicModeling

Runtime error

HarryLee commited on May 29, 2022

Commit

d68475c

1 Parent(s): f47ef77

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,7 +1,11 @@
-import streamlit as st
 from bertopic import BERTopic
-import re
 import pandas as pd
 from sklearn.feature_extraction.text import CountVectorizer
 st.set_page_config(page_title='eRupt Topic Trendy (e-Commerce x Social Media)', page_icon=None, layout='centered', initial_sidebar_state='auto')
@@ -79,7 +83,15 @@ def load_model(model_name, hdbscan_model=hdbscan_model, umap_model=umap_model, v
     else:
         kw_model = BERTopic(embedding_model=sentence_model, umap_model = umap_model, hdbscan_model = hdbscan_model, vectorizer_model = vectorizer_model, calculate_probabilities = True)
     return kw_model
 BerTopic_model = load_model(model_name=model_name)
 input_text = st.text_area("Enter product topic here")

 from bertopic import BERTopic
+import streamlit as st
+import streamlit.components.v1 as components
+from datasets import load_dataset
 import pandas as pd
+from sentence_transformers import SentenceTransformer
+from umap import UMAP
+from hdbscan import HDBSCAN
 from sklearn.feature_extraction.text import CountVectorizer
 st.set_page_config(page_title='eRupt Topic Trendy (e-Commerce x Social Media)', page_icon=None, layout='centered', initial_sidebar_state='auto')
     else:
         kw_model = BERTopic(embedding_model=sentence_model, umap_model = umap_model, hdbscan_model = hdbscan_model, vectorizer_model = vectorizer_model, calculate_probabilities = True)
     return kw_model
+hdbscan_model = HDBSCAN(min_cluster_size=hdbscan_min_cluster_size, min_samples = hdbscan_min_samples, metric=hdbscan_metric, prediction_data=True)
+if use_random_seed:
+    umap_model = UMAP(n_neighbors=umap_n_neighbors, n_components=umap_n_components, min_dist=umap_min_dist, metric=umap_metric, random_state = 42)
+else:
+    umap_model = UMAP(n_neighbors=umap_n_neighbors, n_components=umap_n_components, min_dist=umap_min_dist, metric=umap_metric)
+vectorizer_model = CountVectorizer(lowercase = cv_lowercase, ngram_range=(cv_ngram_min, cv_ngram_max), analyzer=cv_analyzer, max_df=cv_max_df, min_df=cv_min_df, stop_words="english")
 BerTopic_model = load_model(model_name=model_name)
 input_text = st.text_area("Enter product topic here")