Spaces:

phalanx80
/

SA-Dashboard

Sleeping

App Files Files Community

phalanx80 commited on 28 days ago

Commit

58043e3

verified ·

1 Parent(s): 8b72088

Create app.py

Browse files

Files changed (1) hide show

app.py +133 -0

app.py ADDED Viewed

	@@ -0,0 +1,133 @@

+import gradio as gr
+import pandas as pd
+import numpy as np
+import plotly.express as px
+from itertools import combinations
+from collections import Counter
+# Caricamento del dataset
+file_path = 'sa-dataset.csv'  # Assumiamo che il dataset sia nella stessa cartella
+df = pd.read_csv(file_path)
+df['anno_pubblicazione'] = pd.to_numeric(df['anno_pubblicazione'], errors='coerce')
+df['num_parole'] = pd.to_numeric(df['num_parole'], errors='coerce')
+# Funzione per calcolare la co-occorrenza delle parole chiave
+def calcola_cooccorrenza_keywords(top_n=30):
+    keywords_list = df['keyword'].dropna().str.split(', ')
+    all_keywords = [kw for sublist in keywords_list for kw in sublist]
+    common_keywords = Counter(all_keywords).most_common(top_n)
+    common_keywords = [kw[0] for kw in common_keywords]
+    cooccurrence = Counter()
+    for keywords in keywords_list:
+        filtered_keywords = [kw for kw in keywords if kw in common_keywords]
+        cooccurrence.update(combinations(sorted(filtered_keywords), 2))
+    co_matrix = pd.DataFrame(np.zeros((len(common_keywords), len(common_keywords))),
+                             index=common_keywords, columns=common_keywords)
+    for (kw1, kw2), count in cooccurrence.items():
+        co_matrix.loc[kw1, kw2] = count
+        co_matrix.loc[kw2, kw1] = count
+    return px.imshow(co_matrix, x=co_matrix.columns, y=co_matrix.index,
+                     color_continuous_scale='Blues', labels=dict(color="Co-occorrenza"),
+                     title="Mappa di Co-occorrenza delle Parole Chiave")
+# Funzione per calcolare il trend delle keyword
+def calcola_trend_keyword(top_n=10):
+    trend_df = df[['anno_pubblicazione', 'keyword']].dropna()
+    trend_df['keyword'] = trend_df['keyword'].str.split(', ')
+    trend_df = trend_df.explode('keyword')
+    keyword_counts = trend_df['keyword'].value_counts().head(top_n).index
+    trend_df = trend_df[trend_df['keyword'].isin(keyword_counts)]
+    trend_df = trend_df.groupby(['anno_pubblicazione', 'keyword']).size().reset_index(name='count')
+    return px.line(trend_df, x='anno_pubblicazione', y='count', color='keyword',
+                   title='Trend Temporale delle Keyword',
+                   labels={'anno_pubblicazione': 'Anno', 'count': 'Frequenza'})
+# Funzione per calcolare la produttività degli autori
+def produttivita_autori_mod(top_n=15, min_articoli=5):
+    autori_df = df[['anno_pubblicazione', 'primo_autore']].dropna()
+    total_counts = autori_df['primo_autore'].value_counts()
+    autori_eligible = total_counts[total_counts > min_articoli]
+    top_authors = autori_eligible.head(top_n).index
+    filtered_df = autori_df[autori_df['primo_autore'].isin(top_authors)]
+    produttivita = filtered_df.groupby(['anno_pubblicazione', 'primo_autore']).size().reset_index(name='conteggio')
+    return px.line(produttivita, x='anno_pubblicazione', y='conteggio', color='primo_autore',
+                   title="Produttività degli Autori (Top 15 con >5 articoli)",
+                   labels={'anno_pubblicazione': 'Anno', 'conteggio': 'Numero di Articoli'})
+# Funzione per calcolare la frequenza dei luoghi citati
+def frequenza_luoghi(top_n=10):
+    luoghi_df = df[['anno_pubblicazione', 'luoghi_citati']].dropna()
+    luoghi_df['luoghi_citati'] = luoghi_df['luoghi_citati'].str.split(', ')
+    luoghi_df = luoghi_df.explode('luoghi_citati')
+    luoghi_counts = luoghi_df['luoghi_citati'].value_counts().head(top_n).index
+    luoghi_df = luoghi_df[luoghi_df['luoghi_citati'].isin(luoghi_counts)]
+    luoghi_df = luoghi_df.groupby(['anno_pubblicazione', 'luoghi_citati']).size().reset_index(name='conteggio')
+    return px.line(luoghi_df, x='anno_pubblicazione', y='conteggio', color='luoghi_citati',
+                   title="Frequenza dei Luoghi nel Tempo",
+                   labels={'anno_pubblicazione': 'Anno', 'conteggio': 'Frequenza'})
+# Funzioni per grafici aggiuntivi
+def numero_parole_per_articolo():
+    return px.histogram(df, x='num_parole', title='Distribuzione del Numero di Parole per Articolo',
+                        nbins=50, labels={'num_parole': 'Numero di Parole', 'count': 'Numero di Articoli'},
+                        template='plotly')
+def distribuzione_per_anno():
+    return px.histogram(df, x='anno_pubblicazione', title='Distribuzione degli Articoli per Anno di Pubblicazione',
+                        nbins=50, labels={'anno_pubblicazione': 'Anno di Pubblicazione', 'count': 'Numero di Articoli'},
+                        template='plotly')
+def distribuzione_per_lingua():
+    return px.pie(df, names='lingua', title='Distribuzione degli Articoli per Lingua', template='plotly')
+# **NUOVI GRAFICI AGGIUNTI**
+def distribuzione_articoli_per_autore():
+    return px.histogram(df, x='primo_autore', title='Distribuzione del Numero di Articoli per Autore',
+                        nbins=50, labels={'primo_autore': 'Autore', 'count': 'Numero di Articoli'},
+                        template='plotly')
+def evoluzione_articoli_per_anno():
+    conteggio_annuale = df['anno_pubblicazione'].value_counts().reset_index()
+    conteggio_annuale.columns = ['anno_pubblicazione', 'conteggio']
+    return px.line(conteggio_annuale, x='anno_pubblicazione', y='conteggio',
+                   title='Evoluzione Temporale del Numero di Articoli Pubblicati',
+                   labels={'anno_pubblicazione': 'Anno', 'conteggio': 'Numero di Articoli'})
+def lunghezza_media_articoli_per_anno():
+    lunghezza_media = df.groupby('anno_pubblicazione')['num_parole'].mean().reset_index()
+    return px.line(lunghezza_media, x='anno_pubblicazione', y='num_parole',
+                   title='Lunghezza Media degli Articoli per Anno',
+                   labels={'anno_pubblicazione': 'Anno', 'num_parole': 'Lunghezza Media (Parole)'})
+# **Creazione interfaccia Gradio**
+with gr.Blocks() as app:
+    gr.Markdown("## Dashboard per l'Analisi degli Articoli di Storia dell'Arte")
+    with gr.Row():
+        cooccorrenza = gr.Plot(label="Co-occorrenza delle Parole Chiave")
+        trend = gr.Plot(label="Trend Temporale delle Keyword")
+    with gr.Row():
+        produttivita = gr.Plot(label="Produttività degli Autori")
+        distribuzione_autori = gr.Plot(label="Distribuzione del Numero di Articoli per Autore")
+    with gr.Row():
+        evoluzione_articoli = gr.Plot(label="Evoluzione del Numero di Articoli Pubblicati")
+        lunghezza_media = gr.Plot(label="Lunghezza Media degli Articoli per Anno")
+    btn = gr.Button("Genera Grafici")
+    btn.click(lambda: (calcola_cooccorrenza_keywords(), calcola_trend_keyword(), produttivita_autori_mod(),
+                        frequenza_luoghi(), numero_parole_per_articolo(), distribuzione_per_anno(),
+                        distribuzione_per_lingua(), distribuzione_articoli_per_autore(),
+                        evoluzione_articoli_per_anno(), lunghezza_media_articoli_per_anno()),
+              inputs=[], outputs=[cooccorrenza, trend, produttivita, distribuzione_autori,
+                                  evoluzione_articoli, lunghezza_media])
+if __name__ == "__main__":
+    app.launch()