CCatalao
/

respapers_topics

Text Classification

Model card Files Files and versions Community

CCatalao commited on Aug 13, 2023

Commit

14e35a4

·

1 Parent(s): fbe09b6

Update README.md

Files changed (1) hide show

README.md +43 -0

README.md CHANGED Viewed

@@ -158,6 +158,49 @@ topic_model.get_topic_info()
 </details>
 ## Training hyperparameters
 * calculate_probabilities: False

 </details>
+## Training Procedure
+The model was trained as follows:
+```python
+from bertopic import BERTopic
+from sklearn.feature_extraction.text import CountVectorizer
+from bertopic.representation import KeyBERTInspired
+from sentence_transformers import SentenceTransformer
+from umap import UMAP
+from hdbscan import HDBSCAN
+# Prepre sub-models
+embedding_model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
+umap_model = UMAP(n_components=5, n_neighbors=50, random_state=42, metric="cosine", verbose=True)
+hdbscan_model = HDBSCAN(min_samples=20, gen_min_span_tree=True, prediction_data=False, min_cluster_size=20)
+vectorizer_model = CountVectorizer(stop_words="english", ngram_range=(1, 3), min_df=5)
+# Representation models
+representation_models = {"KeyBERTInspired": KeyBERTInspired()}
+# Fit BERTopic
+topic_model = BERTopic(
+                umap_model=umap_model,
+                hdbscan_model=hdbscan_model,
+                vectorizer_model=vectorizer_model,
+                representation_model=representation_models,
+                min_topic_size= 10,
+                n_gram_range= (1, 1),
+                nr_topics=None,
+                seed_topic_list=None,
+                top_n_words=10,
+                calculate_probabilities=False,
+                language=None,
+                verbose = True
+).fit(docs)
+```
 ## Training hyperparameters
 * calculate_probabilities: False