Spaces:

phalanx80
/

SA-Dashboard

Sleeping

App Files Files Community

phalanx80 commited on 26 days ago

Commit

dbab432

verified ·

1 Parent(s): e995678

Update app.py

Browse files

Files changed (1) hide show

app.py +80 -140

app.py CHANGED Viewed

@@ -1,23 +1,12 @@
 import pandas as pd
-import matplotlib.pyplot as plt
 import gradio as gr
-from io import BytesIO
-def load_dataset():
-    """
-    Carica il dataset dal file CSV.
-    """
-    df = pd.read_csv("sa-dataset.csv")
-    return df
 def genera_grafici():
-    """
-    Elabora il dataset e genera una serie di grafici secondo le specifiche richieste.
-    Viene restituita una lista di immagini in formato bytes.
-    """
-    df = load_dataset()
-    # Verifica e conversione dei dati in formato stringa per le colonne testuali
     df["articolo"] = df["articolo"].astype(str)
     df["keyword"] = df["keyword"].astype(str)
     df["luoghi"] = df["luoghi"].astype(str)
@@ -25,157 +14,108 @@ def genera_grafici():
     # Calcolo del numero di parole per articolo
     df["parole"] = df["articolo"].apply(lambda x: len(x.split()))
-    immagini = []  # Lista per salvare le immagini dei grafici
     # 1. Lunghezza media di articoli per anno
-    df_media = df.groupby("anno")["parole"].mean().sort_index()
-    plt.figure()
-    df_media.plot(kind="bar")
-    plt.title("Lunghezza media di articoli per anno")
-    plt.xlabel("Anno")
-    plt.ylabel("Numero medio di parole")
-    buf = BytesIO()
-    plt.tight_layout()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    immagini.append(buf.getvalue())
-    plt.close()
     # 2. Trend delle keyword per anno
-    # Suddivide la colonna 'keyword' in una lista di parole chiave
     df["keyword_list"] = df["keyword"].apply(lambda x: [k.strip() for k in x.split(",") if k.strip() != ""])
     df_keywords = df.explode("keyword_list")
-    # Calcola la frequenza delle keyword per anno
     keyword_year = df_keywords.groupby(["anno", "keyword_list"]).size().reset_index(name="count")
-    # Seleziona le 5 keyword più frequenti complessivamente
     top_keywords = df_keywords["keyword_list"].value_counts().head(5).index.tolist()
     keyword_year_top = keyword_year[keyword_year["keyword_list"].isin(top_keywords)]
-    pivot = keyword_year_top.pivot(index="anno", columns="keyword_list", values="count").fillna(0).sort_index()
-    plt.figure()
-    for kw in pivot.columns:
-        plt.plot(pivot.index, pivot[kw], marker="o", label=kw)
-    plt.title("Trend delle keyword per anno")
-    plt.xlabel("Anno")
-    plt.ylabel("Frequenza")
-    plt.legend(title="Keyword")
-    plt.tight_layout()
-    buf = BytesIO()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    immagini.append(buf.getvalue())
-    plt.close()
     # 3. Produttività degli autori (15 autori più prolifici)
-    top15_autori = df["autore"].value_counts().head(15)
-    plt.figure()
-    top15_autori.plot(kind="bar")
-    plt.title("Produttività degli autori (15 autori più prolifici)")
-    plt.xlabel("Autore")
-    plt.ylabel("Numero di articoli")
-    plt.xticks(rotation=45, ha="right")
-    plt.tight_layout()
-    buf = BytesIO()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    immagini.append(buf.getvalue())
-    plt.close()
     # 4. Numero complessivo di articoli per ciascun autore
-    articoli_per_autore = df["autore"].value_counts().sort_index()
-    plt.figure()
-    articoli_per_autore.plot(kind="bar")
-    plt.title("Numero complessivo di articoli per ciascun autore")
-    plt.xlabel("Autore")
-    plt.ylabel("Numero di articoli")
-    plt.xticks(rotation=90)
-    plt.tight_layout()
-    buf = BytesIO()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    immagini.append(buf.getvalue())
-    plt.close()
     # 5. Autori che hanno pubblicato più di 5 articoli
-    autori_oltre5 = df["autore"].value_counts()[df["autore"].value_counts() > 5]
-    plt.figure()
-    autori_oltre5.plot(kind="bar")
-    plt.title("Autori che hanno pubblicato più di 5 articoli")
-    plt.xlabel("Autore")
-    plt.ylabel("Numero di articoli")
-    plt.xticks(rotation=45, ha="right")
-    plt.tight_layout()
-    buf = BytesIO()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    immagini.append(buf.getvalue())
-    plt.close()
-    # 6. Distribuzione per Lingua
-    distribuzione_lingua = df["lingua"].value_counts()
-    plt.figure()
-    distribuzione_lingua.plot(kind="pie", autopct='%1.1f%%', startangle=90)
-    plt.title("Distribuzione per Lingua")
-    plt.ylabel("")
-    plt.tight_layout()
-    buf = BytesIO()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    immagini.append(buf.getvalue())
-    plt.close()
     # 7. Numero di articoli per ciascun anno
-    articoli_per_anno = df["anno"].value_counts().sort_index()
-    plt.figure()
-    articoli_per_anno.plot(kind="bar")
-    plt.title("Numero di articoli per ciascun anno")
-    plt.xlabel("Anno")
-    plt.ylabel("Numero di articoli")
-    plt.tight_layout()
-    buf = BytesIO()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    immagini.append(buf.getvalue())
-    plt.close()
-    # 8. Frequenza dei luoghi citati
     df["luoghi_list"] = df["luoghi"].apply(lambda x: [l.strip() for l in x.split(",") if l.strip() != ""])
     df_luoghi = df.explode("luoghi_list")
-    frequenza_luoghi = df_luoghi["luoghi_list"].value_counts().head(10)
-    plt.figure()
-    frequenza_luoghi.plot(kind="barh")
-    plt.title("Frequenza dei luoghi citati (top 10)")
-    plt.xlabel("Frequenza")
-    plt.ylabel("Luogo")
-    plt.tight_layout()
-    buf = BytesIO()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    immagini.append(buf.getvalue())
-    plt.close()
-    # 9. Numero di Parole per Articolo (distribuzione)
-    plt.figure()
-    df["parole"].hist(bins=20)
-    plt.title("Distribuzione del numero di parole per articolo")
-    plt.xlabel("Numero di parole")
-    plt.ylabel("Frequenza")
-    plt.tight_layout()
-    buf = BytesIO()
-    plt.savefig(buf, format='png')
-    buf.seek(0)
-    immagini.append(buf.getvalue())
-    plt.close()
-    return immagini
-# Creazione dell'interfaccia Gradio
 demo = gr.Interface(
     fn=genera_grafici,
     inputs=[],
-    outputs=gr.outputs.Gallery(label="Grafici dell'analisi del dataset"),
-    title="Visualizzazione Grafici del Dataset",
-    description=("Questo spazio visualizza una serie di grafici derivati dal dataset. "
-                 "Vengono mostrati, tra gli altri, la lunghezza media degli articoli per anno, il trend delle keyword, "
                  "la produttività degli autori e la distribuzione per lingua.")
 )

 import pandas as pd
+import plotly.express as px
 import gradio as gr
 def genera_grafici():
+    # Caricamento del dataset
+    df = pd.read_csv("sa-dataset.csv")
+    # Assicurare il corretto formato delle colonne testuali
     df["articolo"] = df["articolo"].astype(str)
     df["keyword"] = df["keyword"].astype(str)
     df["luoghi"] = df["luoghi"].astype(str)
     # Calcolo del numero di parole per articolo
     df["parole"] = df["articolo"].apply(lambda x: len(x.split()))
+    figures = []
     # 1. Lunghezza media di articoli per anno
+    df_media = df.groupby("anno")["parole"].mean().reset_index()
+    fig1 = px.bar(df_media, x="anno", y="parole",
+                  title="Lunghezza media di articoli per anno",
+                  labels={"anno": "Anno", "parole": "Numero medio di parole"})
+    figures.append(fig1)
     # 2. Trend delle keyword per anno
+    # Suddivisione delle keyword in lista
     df["keyword_list"] = df["keyword"].apply(lambda x: [k.strip() for k in x.split(",") if k.strip() != ""])
     df_keywords = df.explode("keyword_list")
+    # Calcolo della frequenza delle keyword per anno
     keyword_year = df_keywords.groupby(["anno", "keyword_list"]).size().reset_index(name="count")
+    # Selezione delle 5 keyword più frequenti complessivamente
     top_keywords = df_keywords["keyword_list"].value_counts().head(5).index.tolist()
     keyword_year_top = keyword_year[keyword_year["keyword_list"].isin(top_keywords)]
+    fig2 = px.line(keyword_year_top, x="anno", y="count", color="keyword_list", markers=True,
+                   title="Trend delle keyword per anno",
+                   labels={"anno": "Anno", "count": "Frequenza", "keyword_list": "Keyword"})
+    figures.append(fig2)
     # 3. Produttività degli autori (15 autori più prolifici)
+    top15_autori = df["autore"].value_counts().head(15).reset_index()
+    top15_autori.columns = ["autore", "count"]
+    fig3 = px.bar(top15_autori, x="autore", y="count",
+                  title="Produttività degli autori (15 autori più prolifici)",
+                  labels={"autore": "Autore", "count": "Numero di articoli"})
+    fig3.update_layout(xaxis_tickangle=-45)
+    figures.append(fig3)
     # 4. Numero complessivo di articoli per ciascun autore
+    articoli_per_autore = df["autore"].value_counts().reset_index()
+    articoli_per_autore.columns = ["autore", "count"]
+    fig4 = px.bar(articoli_per_autore, x="autore", y="count",
+                  title="Numero complessivo di articoli per ciascun autore",
+                  labels={"autore": "Autore", "count": "Numero di articoli"})
+    fig4.update_layout(xaxis_tickangle=-45)
+    figures.append(fig4)
     # 5. Autori che hanno pubblicato più di 5 articoli
+    autori_oltre5 = df["autore"].value_counts()[df["autore"].value_counts() > 5].reset_index()
+    autori_oltre5.columns = ["autore", "count"]
+    fig5 = px.bar(autori_oltre5, x="autore", y="count",
+                  title="Autori che hanno pubblicato più di 5 articoli",
+                  labels={"autore": "Autore", "count": "Numero di articoli"})
+    fig5.update_layout(xaxis_tickangle=-45)
+    figures.append(fig5)
+    # 6. Distribuzione per Lingua (grafico a torta)
+    distribuzione_lingua = df["lingua"].value_counts().reset_index()
+    distribuzione_lingua.columns = ["lingua", "count"]
+    fig6 = px.pie(distribuzione_lingua, names="lingua", values="count",
+                  title="Distribuzione per Lingua", hole=0.3)
+    figures.append(fig6)
     # 7. Numero di articoli per ciascun anno
+    articoli_per_anno = df["anno"].value_counts().reset_index()
+    articoli_per_anno.columns = ["anno", "count"]
+    articoli_per_anno = articoli_per_anno.sort_values("anno")
+    fig7 = px.bar(articoli_per_anno, x="anno", y="count",
+                  title="Numero di articoli per ciascun anno",
+                  labels={"anno": "Anno", "count": "Numero di articoli"})
+    figures.append(fig7)
+    # 8. Frequenza dei luoghi citati (top 10)
     df["luoghi_list"] = df["luoghi"].apply(lambda x: [l.strip() for l in x.split(",") if l.strip() != ""])
     df_luoghi = df.explode("luoghi_list")
+    frequenza_luoghi = df_luoghi["luoghi_list"].value_counts().head(10).reset_index()
+    frequenza_luoghi.columns = ["luogo", "count"]
+    fig8 = px.bar(frequenza_luoghi, x="count", y="luogo", orientation="h",
+                  title="Frequenza dei luoghi citati (top 10)",
+                  labels={"luogo": "Luogo", "count": "Frequenza"})
+    figures.append(fig8)
+    # 9. Numero di Parole per Articolo (istogramma)
+    fig9 = px.histogram(df, x="parole", nbins=20,
+                        title="Distribuzione del numero di parole per articolo",
+                        labels={"parole": "Numero di parole", "count": "Frequenza"})
+    figures.append(fig9)
+    return figures
+# Creazione dell'interfaccia Gradio con nove output interattivi
 demo = gr.Interface(
     fn=genera_grafici,
     inputs=[],
+    outputs=[
+        gr.Plot(label="Grafico 1: Lunghezza media di articoli per anno"),
+        gr.Plot(label="Grafico 2: Trend delle keyword per anno"),
+        gr.Plot(label="Grafico 3: Produttività degli autori (15 autori più prolifici)"),
+        gr.Plot(label="Grafico 4: Numero complessivo di articoli per ciascun autore"),
+        gr.Plot(label="Grafico 5: Autori che hanno pubblicato più di 5 articoli"),
+        gr.Plot(label="Grafico 6: Distribuzione per Lingua"),
+        gr.Plot(label="Grafico 7: Numero di articoli per ciascun anno"),
+        gr.Plot(label="Grafico 8: Frequenza dei luoghi citati (top 10)"),
+        gr.Plot(label="Grafico 9: Distribuzione del numero di parole per articolo")
+    ],
+    title="Visualizzazione Grafici Interattivi del Dataset",
+    description=("Questo spazio visualizza una serie di grafici interattivi derivati dal dataset. "
+                 "Sono presenti, tra gli altri, la lunghezza media degli articoli per anno, il trend delle keyword, "
                  "la produttività degli autori e la distribuzione per lingua.")
 )