Spaces:

Nugh75
/

Edurag_beta

Sleeping

App Files Files Community

Nugh75 commited on Jan 2

Commit

ac52d7a

1 Parent(s): a45dfb0

update vari ma non conclisivi

Browse files

Files changed (6) hide show

app.py +17 -15
app/document_handling.py +51 -41
app/functions/database_handling.py +19 -0
ui/db_management_tab.py +1 -1
ui/document_management_tab.py +16 -9
ui/document_view_tab.py +0 -41

app.py CHANGED Viewed

@@ -2,12 +2,12 @@
 import gradio as gr
 import logging
 from app.logging_config import configure_logging
-from app.functions.database_handling import list_databases
 from ui.chatbot_tab import create_chatbot_tab
 from ui.db_management_tab import create_db_management_tab
 from ui.document_management_tab import create_document_management_tab
-from ui.document_view_tab import create_document_view_tab
 from ui.new_features_tab import create_new_features_tab
 # Configura il logging
@@ -16,13 +16,9 @@ configure_logging()
 def update_all_dropdowns():
     """
     Aggiorna tutti i dropdown in tutte le tab.
-    Nel tuo scenario, hai 6 dropdown totali (2 nella tab DB, 2 nella tab Documenti,
-    eventualmente 1 nella tab Chatbot, 1 in altre tab, ecc.).
-    Se ne hai di più o di meno, modifica il numero nel range.
     """
     databases = list_databases()
-    # Imposta la prima voce selezionata (value) solo se la lista non è vuota
-    # e aggiorna le "choices" di tutti i dropdown.
     return [gr.update(choices=databases, value=databases[0] if databases else None) for _ in range(6)]
 def main():
@@ -30,22 +26,28 @@ def main():
     logging.info("Avvio applicazione")
     try:
         with gr.Blocks() as rag_chatbot:
             gr.Markdown("# Chatbot basato su RAG")
             logging.info("Interfaccia Gradio inizializzata")
             # Crea i vari tab dell'interfaccia
             create_chatbot_tab()
-            create_db_management_tab(update_all_dropdowns)       # Passiamo la callback
-            create_document_management_tab(update_all_dropdowns) # Passiamo la callback
-            create_document_view_tab()
             create_new_features_tab()
             logging.info("Tab dell'interfaccia creati con successo")
-        # Avvia l'app
-        logging.info("Avvio server Gradio")
-        rag_chatbot.launch()
     except Exception as e:
-        logging.error(f"Errore durante l'avvio: {str(e)}", exc_info=True)
 if __name__ == "__main__":
     main()

 import gradio as gr
 import logging
+from watchdog.observers import Observer
 from app.logging_config import configure_logging
+from app.functions.database_handling import list_databases, setup_db_observer
 from ui.chatbot_tab import create_chatbot_tab
 from ui.db_management_tab import create_db_management_tab
 from ui.document_management_tab import create_document_management_tab
 from ui.new_features_tab import create_new_features_tab
 # Configura il logging
 def update_all_dropdowns():
     """
     Aggiorna tutti i dropdown in tutte le tab.
     """
     databases = list_databases()
+    logging.info(f"Aggiornamento dropdown con databases: {databases}")
     return [gr.update(choices=databases, value=databases[0] if databases else None) for _ in range(6)]
 def main():
     logging.info("Avvio applicazione")
     try:
         with gr.Blocks() as rag_chatbot:
+            # Configura l'observer per la cartella db
+            observer = setup_db_observer(update_all_dropdowns)
             gr.Markdown("# Chatbot basato su RAG")
             logging.info("Interfaccia Gradio inizializzata")
             # Crea i vari tab dell'interfaccia
             create_chatbot_tab()
+            create_db_management_tab(update_all_dropdowns)
+            create_document_management_tab(update_all_dropdowns)
             create_new_features_tab()
             logging.info("Tab dell'interfaccia creati con successo")
+            # Avvia l'app
+            rag_chatbot.launch()
     except Exception as e:
+        logging.error(f"Errore durante l'avvio: {str(e)}")
+    finally:
+        # Assicurati che l'observer venga fermato
+        if 'observer' in locals():
+            observer.stop()
+            observer.join()
 if __name__ == "__main__":
     main()

app/document_handling.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import logging
-import gradio as gr  # Aggiunto import mancante
 from langchain_community.vectorstores import FAISS
 from langchain_huggingface import HuggingFaceEmbeddings
 import os
@@ -10,7 +10,7 @@ from langchain.text_splitter import RecursiveCharacterTextSplitter
 from dataclasses import dataclass
 import json
 from datetime import datetime
-from app.functions.database_handling import BASE_DB_PATH  # Aggiungi questo import
 # Initialize the text splitter
 text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=100)
@@ -18,6 +18,16 @@ text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=10
 # -------------- UTILITY FUNCTIONS --------------
 @dataclass
 class DocumentMetadata:
     filename: str
     title: str
     author: str
@@ -25,6 +35,7 @@ class DocumentMetadata:
     chunks: int
     def to_dict(self):
         return {
             "filename": self.filename,
             "title": self.title,
@@ -34,8 +45,16 @@ class DocumentMetadata:
         }
 def save_metadata(metadata_list, db_name):
-    """Salva i metadati nel percorso corretto."""
-    # Usa il percorso base corretto
     db_path = os.path.join(BASE_DB_PATH, f"faiss_index_{db_name}")
     metadata_file = os.path.join(db_path, "metadata.json")
@@ -43,17 +62,29 @@ def save_metadata(metadata_list, db_name):
     if not os.path.exists(db_path):
         os.makedirs(db_path)
     existing_metadata = []
     if os.path.exists(metadata_file):
         with open(metadata_file, 'r') as f:
             existing_metadata = json.load(f)
     existing_metadata.extend([m.to_dict() for m in metadata_list])
     with open(metadata_file, 'w') as f:
         json.dump(existing_metadata, f, indent=2)
 def extract_text_from_pdf(file_path):
     with open(file_path, 'rb') as f:
         reader = PyPDF2.PdfReader(f)
         text = ""
@@ -62,12 +93,25 @@ def extract_text_from_pdf(file_path):
         return text
 def extract_text_from_docx(file_path):
     doc = Document(file_path)
     text = ""
     for para in doc.paragraphs:
         text += para.text + "\n"
     return text
 # -------------- CHATBOT TAB FUNCTIONS --------------
 def answer_question(question, db_name="default_db"):
     db_path = os.path.join(BASE_DB_PATH, f"faiss_index_{db_name}")
@@ -88,6 +132,9 @@ def answer_question(question, db_name="default_db"):
     results = [doc.page_content for doc in docs]
     return "\n\n".join(results)
 # -------------- DOCUMENT MANAGEMENT TAB FUNCTIONS --------------
 def upload_and_index(files, title, author, db_name="default_db"):
     if not files:
@@ -218,43 +265,6 @@ def delete_file_from_database(file_name, db_name="default_db"):
     except Exception as e:
         return f"Errore durante la rimozione del file: {e}"
-# -------------- DOCUMENT VISUALIZATION TAB FUNCTIONS --------------
-def list_indexed_documents(db_name="default_db"):
-    db_path = os.path.join(BASE_DB_PATH, f"faiss_index_{db_name}")  # Modifica qui
-    metadata_file = os.path.join(db_path, "metadata.json")
-    if not os.path.exists(db_path):
-        return f"Il database '{db_name}' non esiste."
-    if not os.path.exists(metadata_file):
-        return f"Nessun documento nel database '{db_name}'."
-    try:
-        with open(metadata_file, 'r') as f:
-            metadata = json.load(f)
-        if not metadata:
-            return "Nessun documento trovato nel database."
-        output_lines = ["📚 Documenti nel database:"]
-        for doc in metadata:
-            output_lines.extend([
-                f"\n📄 Documento: {doc['title']}",
-                f"   📝 Autore: {doc['author']}",
-                f"   📁 File: {doc['filename']}",
-                f"   🕒 Caricato il: {doc['upload_date']}",
-                f"   📑 Chunks: {doc['chunks']}"
-            ])
-        result = "\n".join(output_lines)
-        logging.info(f"Documenti trovati nel database {db_name}: {result}")
-        return result
-    except Exception as e:
-        error_msg = f"Errore nella lettura dei metadati: {e}"
-        logging.error(error_msg)
-        return error_msg
 # -------------- NEW FEATURES TAB FUNCTIONS --------------
 def search_documents(query, db_name="default_db"):
     db_path = os.path.join(BASE_DB_PATH, f"faiss_index_{db_name}")  # Modifica qui

 import logging
+import gradio as gr
 from langchain_community.vectorstores import FAISS
 from langchain_huggingface import HuggingFaceEmbeddings
 import os
 from dataclasses import dataclass
 import json
 from datetime import datetime
+from app.functions.database_handling import BASE_DB_PATH
 # Initialize the text splitter
 text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=100)
 # -------------- UTILITY FUNCTIONS --------------
 @dataclass
 class DocumentMetadata:
+    """
+    Classe per gestire i metadati dei documenti.
+    Attributi:
+        filename (str): Nome del file originale
+        title (str): Titolo assegnato al documento
+        author (str): Autore del documento
+        upload_date (str): Data di caricamento
+        chunks (int): Numero di chunks in cui è stato diviso il documento
+    """
     filename: str
     title: str
     author: str
     chunks: int
     def to_dict(self):
+        """Converte i metadati in un dizionario per il salvataggio JSON."""
         return {
             "filename": self.filename,
             "title": self.title,
         }
 def save_metadata(metadata_list, db_name):
+    """
+    Salva i metadati dei documenti nel database specificato.
+    Args:
+        metadata_list: Lista di oggetti DocumentMetadata da salvare
+        db_name: Nome del database in cui salvare i metadati
+    Note:
+        I metadati vengono salvati in un file JSON nella directory del database
+    """
     db_path = os.path.join(BASE_DB_PATH, f"faiss_index_{db_name}")
     metadata_file = os.path.join(db_path, "metadata.json")
     if not os.path.exists(db_path):
         os.makedirs(db_path)
+    # Carica metadati esistenti se presenti
     existing_metadata = []
     if os.path.exists(metadata_file):
         with open(metadata_file, 'r') as f:
             existing_metadata = json.load(f)
+    # Aggiungi nuovi metadati
     existing_metadata.extend([m.to_dict() for m in metadata_list])
+    # Salva il file aggiornato
     with open(metadata_file, 'w') as f:
         json.dump(existing_metadata, f, indent=2)
 def extract_text_from_pdf(file_path):
+    """
+    Estrae il testo da un file PDF.
+    Args:
+        file_path: Percorso del file PDF
+    Returns:
+        str: Testo estratto dal PDF
+    """
     with open(file_path, 'rb') as f:
         reader = PyPDF2.PdfReader(f)
         text = ""
         return text
 def extract_text_from_docx(file_path):
+    """
+    Estrae il testo da un file DOCX.
+    Args:
+        file_path: Percorso del file DOCX
+    Returns:
+        str: Testo estratto dal documento Word
+    """
     doc = Document(file_path)
     text = ""
     for para in doc.paragraphs:
         text += para.text + "\n"
     return text
 # -------------- CHATBOT TAB FUNCTIONS --------------
 def answer_question(question, db_name="default_db"):
     db_path = os.path.join(BASE_DB_PATH, f"faiss_index_{db_name}")
     results = [doc.page_content for doc in docs]
     return "\n\n".join(results)
 # -------------- DOCUMENT MANAGEMENT TAB FUNCTIONS --------------
 def upload_and_index(files, title, author, db_name="default_db"):
     if not files:
     except Exception as e:
         return f"Errore durante la rimozione del file: {e}"
 # -------------- NEW FEATURES TAB FUNCTIONS --------------
 def search_documents(query, db_name="default_db"):
     db_path = os.path.join(BASE_DB_PATH, f"faiss_index_{db_name}")  # Modifica qui

app/functions/database_handling.py CHANGED Viewed

@@ -1,6 +1,8 @@
 import logging
 import os
 import shutil
 # Definisci il percorso base per i database
 BASE_DB_PATH = "db"
@@ -64,3 +66,20 @@ def list_databases():
     except Exception as e:
         logging.error(f"Error listing databases: {e}")
         return []

 import logging
 import os
 import shutil
+from watchdog.observers import Observer
+from watchdog.events import FileSystemEventHandler
 # Definisci il percorso base per i database
 BASE_DB_PATH = "db"
     except Exception as e:
         logging.error(f"Error listing databases: {e}")
         return []
+class DatabaseChangeHandler(FileSystemEventHandler):
+    """Handler per monitorare i cambiamenti nella cartella db."""
+    def __init__(self, update_callback):
+        self.update_callback = update_callback
+    def on_any_event(self, event):
+        if event.is_directory:  # Monitora solo le directory
+            self.update_callback()
+def setup_db_observer(update_callback):
+    """Configura l'observer per la cartella db."""
+    event_handler = DatabaseChangeHandler(update_callback)
+    observer = Observer()
+    observer.schedule(event_handler, BASE_DB_PATH, recursive=False)
+    observer.start()
+    return observer

ui/db_management_tab.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import gradio as gr
-#from app.document_handling import create_database, modify_database, delete_database, list_databases
 from app.functions.database_handling import create_database, modify_database, delete_database, list_databases
 def create_db_management_tab(update_all_dropdowns=None):
@@ -70,3 +69,4 @@ def create_db_management_tab(update_all_dropdowns=None):
     # Ritorna i componenti che vogliamo poter aggiornare/agganciare
     return [modify_db_old_name, delete_db_dropdown, create_db_button, modify_db_button, delete_db_button]

 import gradio as gr
 from app.functions.database_handling import create_database, modify_database, delete_database, list_databases
 def create_db_management_tab(update_all_dropdowns=None):
     # Ritorna i componenti che vogliamo poter aggiornare/agganciare
     return [modify_db_old_name, delete_db_dropdown, create_db_button, modify_db_button, delete_db_button]

ui/document_management_tab.py CHANGED Viewed

@@ -3,9 +3,19 @@ import logging
 from app.document_handling import upload_and_index, list_indexed_files, delete_file_from_database
 from app.functions.database_handling import list_databases
-def create_document_management_tab(update_all_dropdowns=None):
     """Crea il tab 'Gestione Documenti' dell'interfaccia Gradio."""
     def upload_and_index_callback(files, title, author, db_name):
         """Carica e indicizza i documenti, quindi aggiorna la lista dei file."""
         try:
@@ -66,14 +76,13 @@ def create_document_management_tab(update_all_dropdowns=None):
                 delete_file_button = gr.Button("Elimina File")
             delete_file_output = gr.Textbox(label="Stato Eliminazione")
-        # Eventi
         upload_button.click(
             fn=upload_and_index_callback,
             inputs=[file_input, title_input, author_input, db_name_upload],
             outputs=upload_output
         ).then(
-            fn=update_all_dropdowns,            # <--- callback globale
-            inputs=[],
             outputs=[db_name_upload, db_name_list]
         ).then(
             fn=list_files_callback,
@@ -92,14 +101,12 @@ def create_document_management_tab(update_all_dropdowns=None):
             inputs=[delete_file_input, db_name_list],
             outputs=delete_file_output
         ).then(
-            fn=update_all_dropdowns,           # <--- callback globale
-            inputs=[],
             outputs=[db_name_upload, db_name_list]
         ).then(
             fn=list_files_callback,
             inputs=[db_name_list],
             outputs=list_output
         )
-    # Ritorna i dropdown (e altri componenti, se servono) per poterli aggiornare
-    return [db_name_upload, db_name_list, upload_button, list_button, delete_file_button]

 from app.document_handling import upload_and_index, list_indexed_files, delete_file_from_database
 from app.functions.database_handling import list_databases
+def create_document_management_tab(update_all_dropdowns):
     """Crea il tab 'Gestione Documenti' dell'interfaccia Gradio."""
+    def refresh_dropdowns():
+        """Aggiorna localmente i dropdown con la lista aggiornata dei database."""
+        databases = list_databases()
+        logging.info(f"Aggiornamento dropdown con databases: {databases}")
+        updates = [
+            gr.update(choices=databases, value=databases[0] if databases else None),
+            gr.update(choices=databases, value=databases[0] if databases else None)
+        ]
+        return updates
     def upload_and_index_callback(files, title, author, db_name):
         """Carica e indicizza i documenti, quindi aggiorna la lista dei file."""
         try:
                 delete_file_button = gr.Button("Elimina File")
             delete_file_output = gr.Textbox(label="Stato Eliminazione")
+        # Eventi modificati
         upload_button.click(
             fn=upload_and_index_callback,
             inputs=[file_input, title_input, author_input, db_name_upload],
             outputs=upload_output
         ).then(
+            fn=update_all_dropdowns,  # Usa la funzione globale
             outputs=[db_name_upload, db_name_list]
         ).then(
             fn=list_files_callback,
             inputs=[delete_file_input, db_name_list],
             outputs=delete_file_output
         ).then(
+            fn=update_all_dropdowns,  # Usa la funzione globale
             outputs=[db_name_upload, db_name_list]
         ).then(
             fn=list_files_callback,
             inputs=[db_name_list],
             outputs=list_output
         )
+    return [db_name_upload, db_name_list]

ui/document_view_tab.py DELETED Viewed

@@ -1,41 +0,0 @@
-# ui/document_view_tab.py
-import gradio as gr
-from app.document_handling import list_indexed_documents
-from app.functions.database_handling import list_databases
-def create_document_view_tab():
-    """Crea il tab 'Visualizza Documenti Indicizzati' dell'interfaccia Gradio."""
-    def list_docs_callback(db_name):
-        """Elenca i documenti indicizzati nel database specificato."""
-        documents = list_indexed_documents(db_name)
-        return "\n".join(documents)
-    # Ottieni la lista dei database
-    databases = list_databases()
-    with gr.Tab("Visualizza Documenti Indicizzati"):
-        with gr.Column():
-            gr.Markdown("### Documenti nel Database")
-            db_name_list = gr.Dropdown(
-                choices=databases,
-                label="Seleziona Database",
-                value="default_db",
-                interactive=True
-            )
-            list_button = gr.Button("Visualizza Documenti")
-            list_output = gr.Textbox(
-                label="Elenco Documenti",
-                lines=10,
-                interactive=False,
-                value="Clicca 'Visualizza Documenti' per vedere l'elenco"
-            )
-            list_button.click(
-                fn=list_docs_callback,
-                inputs=[db_name_list],
-                outputs=[list_output],
-                api_name="list_docs"
-            )
-    return