Spaces:

Artemis-IA
/

docling_converter

Running

App Files Files Community

Artemis-IA commited on Jan 25

Commit

08c2eb9

verified ·

1 Parent(s): 15c65bb

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -33

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import os
-import zipfile
 from pathlib import Path
 from typing import List
 from PyPDF2 import PdfReader
@@ -24,12 +24,6 @@ from docling.datamodel.pipeline_options import (
 OUTPUT_DIR = Path("output")
 OUTPUT_DIR.mkdir(exist_ok=True)
-FIGURES_DIR = OUTPUT_DIR / "figures"
-FIGURES_DIR.mkdir(exist_ok=True)
-TABLES_DIR = OUTPUT_DIR / "tables"
-TABLES_DIR.mkdir(exist_ok=True)
 # Vérification de validité des fichiers PDF
 def is_valid_pdf(file_path):
     try:
@@ -95,30 +89,35 @@ def create_document_converter(
     )
 # Interface Streamlit
-st.title("Conversion de documents PDF avec OCR")
-st.subheader("Téléchargez un PDF pour commencer le traitement")
-uploaded_files = st.file_uploader("Sélectionnez vos fichiers PDF", accept_multiple_files=True, type=["pdf"])
 use_ocr = st.checkbox("👁️‍🗨️ Activer l'OCR", value=True)
 export_figures = st.checkbox("🖼️ Exporter les images", value=True)
 export_tables = st.checkbox("📋 Exporter les tableaux", value=True)
 ocr_engine = st.selectbox("Moteur OCR", ["easyocr", "tesseract_cli", "tesserocr", "rapidocr", "ocrmac"])
 ocr_languages = st.text_input("Langues OCR (ex : eng, fra)", "eng").split(",")
-table_mode = st.selectbox("Mode des tableaux", ["accurate", "fast"])
 if st.button("Convertir"):
     if uploaded_files:
         input_paths = []
         generated_files = []
         for uploaded_file in uploaded_files:
             file_path = OUTPUT_DIR / uploaded_file.name
             with open(file_path, "wb") as f:
                 f.write(uploaded_file.read())
-            st.write(f"Fichier reçu : {file_path} (taille : {os.path.getsize(file_path)} octets)")
             if not is_valid_pdf(file_path):
-                st.error(f"Le fichier {file_path.name} n'est pas un PDF valide.")
                 continue
             input_paths.append(file_path)
@@ -133,25 +132,50 @@ if st.button("Convertir"):
             ocr_languages=ocr_languages,
         )
         # Conversion des fichiers
-        conv_results = list(converter.convert_all(input_paths, raises_on_error=False))
-        for conv_res in conv_results:
-            if conv_res.status == ConversionStatus.SUCCESS:
-                st.success(f"Conversion réussie pour : {conv_res.input.file}")
-                output_file = OUTPUT_DIR / f"{conv_res.input.file.stem}.md"
-                with open(output_file, "w") as f:
-                    f.write("## Exemple de contenu Markdown généré\n")
-                generated_files.append(output_file)
-            else:
-                st.error(f"Échec de la conversion pour : {conv_res.input.file} - Statut : {conv_res.status}")
-        # Création du fichier ZIP
-        zip_filename = OUTPUT_DIR / "exported_files.zip"
-        with zipfile.ZipFile(zip_filename, "w") as zipf:
-            for file in generated_files:
-                zipf.write(file, file.name)
-        st.success("Conversion terminée !")
-        st.download_button("Télécharger le ZIP", data=open(zip_filename, "rb").read(), file_name="exported_files.zip")
     else:
-        st.error("Veuillez télécharger au moins un fichier PDF.")

 import os
+import time
 from pathlib import Path
 from typing import List
 from PyPDF2 import PdfReader
 OUTPUT_DIR = Path("output")
 OUTPUT_DIR.mkdir(exist_ok=True)
 # Vérification de validité des fichiers PDF
 def is_valid_pdf(file_path):
     try:
     )
 # Interface Streamlit
+st.title("📄 Conversion de documents PDF avec OCR")
+st.subheader("🖼️ Téléchargez un PDF pour commencer le traitement")
+uploaded_files = st.file_uploader(
+    "Sélectionnez vos fichiers PDF", accept_multiple_files=True, type=["pdf"]
+)
 use_ocr = st.checkbox("👁️‍🗨️ Activer l'OCR", value=True)
 export_figures = st.checkbox("🖼️ Exporter les images", value=True)
 export_tables = st.checkbox("📋 Exporter les tableaux", value=True)
 ocr_engine = st.selectbox("Moteur OCR", ["easyocr", "tesseract_cli", "tesserocr", "rapidocr", "ocrmac"])
 ocr_languages = st.text_input("Langues OCR (ex : eng, fra)", "eng").split(",")
+table_mode = st.selectbox("Mode des tableaux", ["ACCURATE", "FAST"])
 if st.button("Convertir"):
     if uploaded_files:
         input_paths = []
         generated_files = []
+        total_files = len(uploaded_files)
+        start_time = time.time()  # Chronomètre de démarrage
+        # Charger les fichiers téléchargés
         for uploaded_file in uploaded_files:
             file_path = OUTPUT_DIR / uploaded_file.name
             with open(file_path, "wb") as f:
                 f.write(uploaded_file.read())
+            st.write(f"📥 Fichier reçu : `{file_path.name}` ({os.path.getsize(file_path)} octets)")
             if not is_valid_pdf(file_path):
+                st.error(f"❌ Le fichier {file_path.name} n'est pas un PDF valide.")
                 continue
             input_paths.append(file_path)
             ocr_languages=ocr_languages,
         )
+        # Barre de progression et cercle de chargement
+        progress_bar = st.progress(0)
+        status_placeholder = st.empty()
         # Conversion des fichiers
+        for i, file_path in enumerate(input_paths):
+            status_placeholder.info(
+                f"🔄 Traitement de `{file_path.name}` ({i + 1}/{total_files})"
+            )
+            file_start_time = time.time()
+            # Conversion du fichier
+            conv_results = list(converter.convert_all([file_path], raises_on_error=False))
+            for conv_res in conv_results:
+                if conv_res.status == ConversionStatus.SUCCESS:
+                    st.success(f"✅ Conversion réussie : `{conv_res.input.file}`")
+                    output_file = OUTPUT_DIR / f"{conv_res.input.file.stem}.md"
+                    with open(output_file, "w") as f:
+                        f.write(f"## Contenu converti pour `{conv_res.input.file}`")
+                    generated_files.append(output_file)
+                else:
+                    st.error(f"❌ Échec de la conversion pour : `{conv_res.input.file}`")
+            # Temps estimé restant
+            elapsed_time = time.time() - file_start_time
+            remaining_files = total_files - (i + 1)
+            estimated_time_remaining = elapsed_time * remaining_files
+            status_placeholder.info(
+                f"⏳ Temps restant estimé : {int(estimated_time_remaining)} secondes"
+            )
+            # Mise à jour de la barre de progression
+            progress_bar.progress((i + 1) / total_files)
+        # Affichage des fichiers générés
+        st.subheader("📂 Fichiers générés")
+        for generated_file in generated_files:
+            st.markdown(f"📄 **{generated_file.name}**")
+            with open(generated_file, "r") as f:
+                content = f.read()
+            st.text_area(f"Prévisualisation : {generated_file.name}", value=content, height=200)
+        # Temps total écoulé
+        total_time = time.time() - start_time
+        st.success(f"✅ Conversion terminée en {int(total_time)} secondes !")
     else:
+        st.error("❌ Veuillez télécharger au moins un fichier PDF.")