File size: 8,271 Bytes
28a9c59 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 |
---
tags:
- bertopic
library_name: bertopic
pipeline_tag: text-classification
---
# BERTopic_IlPost_baseModel
This is a [BERTopic](https://github.com/MaartenGr/BERTopic) model.
BERTopic is a flexible and modular topic modeling framework that allows for the generation of easily interpretable topics from large datasets.
## Usage
To use this model, please install BERTopic:
```
pip install -U bertopic
```
You can use the model as follows:
```python
from bertopic import BERTopic
topic_model = BERTopic.load("alexman83/BERTopic_IlPost_baseModel")
topic_model.get_topic_info()
```
## Topic overview
* Number of topics: 69
* Number of training documents: 1604
<details>
<summary>Click here for an overview of all topics.</summary>
| Topic ID | Topic Keywords | Topic Frequency | Label |
|----------|----------------|-----------------|-------|
| -1 | italia - azienda - altre - soprattutto - euro | 5 | -1_italia_azienda_altre_soprattutto |
| 0 | specie - animali - casi - orsi - virus | 439 | 0_specie_animali_casi_orsi |
| 1 | acqua - aria - mare - attività - inquinamento | 104 | 1_acqua_aria_mare_attività |
| 2 | libro - romanzo - libri - scrittore - romanzi | 65 | 2_libro_romanzo_libri_scrittore |
| 3 | partito - centrosinistra - candidato - pd - elezioni | 62 | 3_partito_centrosinistra_candidato_pd |
| 4 | studi - salute - effetti - studio - ricerca | 35 | 4_studi_salute_effetti_studio |
| 5 | olimpiadi - parigi - atleti - paralimpiadi - cerimonia | 33 | 5_olimpiadi_parigi_atleti_paralimpiadi |
| 6 | legge - decreto - presidente - italia - riforma | 33 | 6_legge_decreto_presidente_italia |
| 7 | moda - scarpe - calzini - tasche - modelli | 30 | 7_moda_scarpe_calzini_tasche |
| 8 | economia - tassi - aumento - inflazione - prezzi | 29 | 8_economia_tassi_aumento_inflazione |
| 9 | carcere - detenuti - salis - carceri - italia | 28 | 9_carcere_detenuti_salis_carceri |
| 10 | article text - to extract - to extract article - text - failed to extract | 26 | 10_article text_to extract_to extract article_text |
| 11 | apple - app - iphone - visore - smartphone | 24 | 11_apple_app_iphone_visore |
| 12 | israele - palestinesi - gaza - israeliano - hamas | 23 | 12_israele_palestinesi_gaza_israeliano |
| 13 | musk - twitter - tweet - zuckerberg - social | 23 | 13_musk_twitter_tweet_zuckerberg |
| 14 | gioco - videogiochi - giochi - videogioco - film | 22 | 14_gioco_videogiochi_giochi_videogioco |
| 15 | moda - kahlo - abito - met - gala | 22 | 15_moda_kahlo_abito_met |
| 16 | tiktok - utenti - contenuti - social - facebook | 21 | 16_tiktok_utenti_contenuti_social |
| 17 | toti - presidente - meloni - genova - italia | 21 | 17_toti_presidente_meloni_genova |
| 18 | musica - spotify - canzoni - verde - album | 20 | 18_musica_spotify_canzoni_verde |
| 19 | band - concerti - noel - concerto - musica | 20 | 19_band_concerti_noel_concerto |
| 20 | google - intelligenza - artificiale - intelligenza artificiale - openai | 19 | 20_google_intelligenza_artificiale_intelligenza artificiale |
| 21 | vinto - medaglia - finale - oro - olimpiadi | 19 | 21_vinto_medaglia_finale_oro |
| 22 | metri - olimpiadi - oro - gara - vinto | 19 | 22_metri_olimpiadi_oro_gara |
| 23 | shein - lusso - azienda - vestiti - marchi | 18 | 23_shein_lusso_azienda_vestiti |
| 24 | stellantis - auto - fiat - marelli - stabilimento | 17 | 24_stellantis_auto_fiat_marelli |
| 25 | nasa - spaziale - starliner - terra - lancio | 17 | 25_nasa_spaziale_starliner_terra |
| 26 | superbonus - commissione - italia - giorgetti - spesa | 17 | 26_superbonus_commissione_italia_giorgetti |
| 27 | sinner - tennis - torneo - partita - tennista | 16 | 27_sinner_tennis_torneo_partita |
| 28 | bonatti - gutu - metri - alpinisti - rzucidlo | 16 | 28_bonatti_gutu_metri_alpinisti |
| 29 | olimpiadi - atleti - sport - metri - gare | 15 | 29_olimpiadi_atleti_sport_metri |
| 30 | harris - trump - convention - biden - discorso | 15 | 30_harris_trump_convention_biden |
| 31 | pesce - carne - burger - smash - smash burger | 14 | 31_pesce_carne_burger_smash |
| 32 | barca - bayesian - lynch - naufragio - equipaggio | 14 | 32_barca_bayesian_lynch_naufragio |
| 33 | libri - nobel - premio - letteratura - autori | 13 | 33_libri_nobel_premio_letteratura |
| 34 | cravatta - dogg - foto - snoop dogg - snoop | 13 | 34_cravatta_dogg_foto_snoop dogg |
| 35 | crowdstrike - windows - informatico - aggiornamento - software | 12 | 35_crowdstrike_windows_informatico_aggiornamento |
| 36 | adidas - drop - birkin - strisce - lives matter | 12 | 36_adidas_drop_birkin_strisce |
| 37 | vele - vela - vela celeste - crollo - celeste | 11 | 37_vele_vela_vela celeste_crollo |
| 38 | chatgpt - openai - intelligenza - intelligenza artificiale - artificiale | 11 | 38_chatgpt_openai_intelligenza_intelligenza artificiale |
| 39 | nvidia - nft - settore - azienda - aziende | 11 | 39_nvidia_nft_settore_azienda |
| 40 | ucraina - ucraino - esercito - kursk - russo | 11 | 40_ucraina_ucraino_esercito_kursk |
| 41 | chanel - valentino - moda - garavani - gucci | 10 | 41_chanel_valentino_moda_garavani |
| 42 | sole - cielo - eclissi - terra - solare | 10 | 42_sole_cielo_eclissi_terra |
| 43 | post - spiegate - giornalismo - dicose spiegate - dicose | 10 | 43_post_spiegate_giornalismo_dicose spiegate |
| 44 | europea - servizi - unione europea - commissione - piattaforme | 10 | 44_europea_servizi_unione europea_commissione |
| 45 | sesso - donne - lgbt - genere - victoria secret | 10 | 45_sesso_donne_lgbt_genere |
| 46 | borse - monete - lusso - pantofole - valore | 10 | 46_borse_monete_lusso_pantofole |
| 47 | von der - der - von - der leyen - von der leyen | 9 | 47_von der_der_von_der leyen |
| 48 | google - browser - cookie - pubblicità - ricerca | 9 | 48_google_browser_cookie_pubblicità |
| 49 | libri - biblioteca - library - biblioteche - lugo | 9 | 49_libri_biblioteca_library_biblioteche |
| 50 | italia - migranti - cittadinanza - cittadinanza italiana - albania | 9 | 50_italia_migranti_cittadinanza_cittadinanza italiana |
| 51 | libro - moehringer - harry - winfrey - libri | 8 | 51_libro_moehringer_harry_winfrey |
| 52 | linguaggio - mito - antartide - lingua - comune | 8 | 52_linguaggio_mito_antartide_lingua |
| 53 | altman - openai - microsoft - amministrazione - intelligenza | 7 | 53_altman_openai_microsoft_amministrazione |
| 54 | lega - fratelli - fratelli italia - italia - salvini | 7 | 54_lega_fratelli_fratelli italia_italia |
| 55 | tesla - musk - cybertruck - auto - model | 7 | 55_tesla_musk_cybertruck_auto |
| 56 | film - vescica - shyamalan - scorsese - roth | 7 | 56_film_vescica_shyamalan_scorsese |
| 57 | mercato - auto - dazi - euro - cina | 7 | 57_mercato_auto_dazi_euro |
| 58 | bergamo - treni - lavori - alta - turismo | 7 | 58_bergamo_treni_lavori_alta |
| 59 | verona - sogliano - squadra - atalanta - calciatori | 7 | 59_verona_sogliano_squadra_atalanta |
| 60 | pogačar - tour - de france - tour de france - tour de | 7 | 60_pogačar_tour_de france_tour de france |
| 61 | natale - calendario - regali - dicembre - magi | 7 | 61_natale_calendario_regali_dicembre |
| 62 | vino - vini - matcha - tè - birra | 6 | 62_vino_vini_matcha_tè |
| 63 | partito - elezioni - afd - turingia - italia | 6 | 63_partito_elezioni_afd_turingia |
| 64 | hauser - polizia - stazzema - sant anna - sant | 6 | 64_hauser_polizia_stazzema_sant anna |
| 65 | numeri casuali - casuali - numeri - garavaglia - italia | 6 | 65_numeri casuali_casuali_numeri_garavaglia |
| 66 | philo - skims - marchio - moda - collezione | 5 | 66_philo_skims_marchio_moda |
| 67 | lavastoviglie - lavaggio - acqua - piatti - stoviglie | 5 | 67_lavastoviglie_lavaggio_acqua_piatti |
</details>
## Training hyperparameters
* calculate_probabilities: True
* language: italian
* low_memory: False
* min_topic_size: 5
* n_gram_range: (1, 1)
* nr_topics: None
* seed_topic_list: None
* top_n_words: 10
* verbose: True
* zeroshot_min_similarity: 0.7
* zeroshot_topic_list: None
## Framework versions
* Numpy: 1.26.4
* HDBSCAN: 0.8.33
* UMAP: 0.5.5
* Pandas: 2.2.1
* Scikit-Learn: 1.5.1
* Sentence-transformers: 2.5.1
* Transformers: 4.44.2
* Numba: 0.59.0
* Plotly: 5.19.0
* Python: 3.10.13
|