Spaces:

Artemis-IA
/

docling_converter

Running

App Files Files Community

Artemis-IA commited on Jan 25

Commit

9c04880

verified ·

1 Parent(s): 08c2eb9

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -27

app.py CHANGED Viewed

@@ -1,9 +1,11 @@
 import os
 import time
 from pathlib import Path
 from typing import List
 from PyPDF2 import PdfReader
 import streamlit as st
 from docling.document_converter import DocumentConverter, PdfFormatOption
 from docling.datamodel.base_models import InputFormat
 from docling.datamodel.document import ConversionStatus
@@ -19,18 +21,28 @@ from docling.datamodel.pipeline_options import (
     RapidOcrOptions,
     OcrMacOptions,
 )
 # Répertoires de sortie
 OUTPUT_DIR = Path("output")
 OUTPUT_DIR.mkdir(exist_ok=True)
-# Vérification de validité des fichiers PDF
-def is_valid_pdf(file_path):
     try:
-        PdfReader(file_path)
-        return True
     except Exception as e:
-        st.error(f"Fichier non valide ou corrompu : {file_path} - Erreur : {e}")
         return False
 # Fonction pour configurer le convertisseur de documents
@@ -53,7 +65,7 @@ def create_document_converter(
         do_cell_matching=True,
     )
-    # OCR avec EasyOCR
     if ocr_engine == "easyocr":
         ocr_options = EasyOcrOptions(lang=ocr_languages)
     elif ocr_engine == "tesseract_cli":
@@ -88,12 +100,12 @@ def create_document_converter(
         format_options={InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)},
     )
-# Interface Streamlit
-st.title("📄 Conversion de documents PDF avec OCR")
-st.subheader("🖼️ Téléchargez un PDF pour commencer le traitement")
 uploaded_files = st.file_uploader(
-    "Sélectionnez vos fichiers PDF", accept_multiple_files=True, type=["pdf"]
 )
 use_ocr = st.checkbox("👁️‍🗨️ Activer l'OCR", value=True)
 export_figures = st.checkbox("🖼️ Exporter les images", value=True)
@@ -101,6 +113,9 @@ export_tables = st.checkbox("📋 Exporter les tableaux", value=True)
 ocr_engine = st.selectbox("Moteur OCR", ["easyocr", "tesseract_cli", "tesserocr", "rapidocr", "ocrmac"])
 ocr_languages = st.text_input("Langues OCR (ex : eng, fra)", "eng").split(",")
 table_mode = st.selectbox("Mode des tableaux", ["ACCURATE", "FAST"])
 if st.button("Convertir"):
     if uploaded_files:
@@ -116,12 +131,11 @@ if st.button("Convertir"):
                 f.write(uploaded_file.read())
             st.write(f"📥 Fichier reçu : `{file_path.name}` ({os.path.getsize(file_path)} octets)")
-            if not is_valid_pdf(file_path):
-                st.error(f"❌ Le fichier {file_path.name} n'est pas un PDF valide.")
                 continue
             input_paths.append(file_path)
-        # Configurer le convertisseur de documents
         converter = create_document_converter(
             use_ocr,
             export_figures,
@@ -132,7 +146,7 @@ if st.button("Convertir"):
             ocr_languages=ocr_languages,
         )
-        # Barre de progression et cercle de chargement
         progress_bar = st.progress(0)
         status_placeholder = st.empty()
@@ -148,21 +162,25 @@ if st.button("Convertir"):
             for conv_res in conv_results:
                 if conv_res.status == ConversionStatus.SUCCESS:
                     st.success(f"✅ Conversion réussie : `{conv_res.input.file}`")
-                    output_file = OUTPUT_DIR / f"{conv_res.input.file.stem}.md"
-                    with open(output_file, "w") as f:
-                        f.write(f"## Contenu converti pour `{conv_res.input.file}`")
-                    generated_files.append(output_file)
                 else:
                     st.error(f"❌ Échec de la conversion pour : `{conv_res.input.file}`")
-            # Temps estimé restant
-            elapsed_time = time.time() - file_start_time
-            remaining_files = total_files - (i + 1)
-            estimated_time_remaining = elapsed_time * remaining_files
-            status_placeholder.info(
-                f"⏳ Temps restant estimé : {int(estimated_time_remaining)} secondes"
-            )
             # Mise à jour de la barre de progression
             progress_bar.progress((i + 1) / total_files)
@@ -178,4 +196,4 @@ if st.button("Convertir"):
         total_time = time.time() - start_time
         st.success(f"✅ Conversion terminée en {int(total_time)} secondes !")
     else:
-        st.error("❌ Veuillez télécharger au moins un fichier PDF.")

 import os
 import time
+import datetime
 from pathlib import Path
 from typing import List
 from PyPDF2 import PdfReader
 import streamlit as st
+import pandas as pd
 from docling.document_converter import DocumentConverter, PdfFormatOption
 from docling.datamodel.base_models import InputFormat
 from docling.datamodel.document import ConversionStatus
     RapidOcrOptions,
     OcrMacOptions,
 )
+from docling_core.types.doc import PictureItem, TableItem
 # Répertoires de sortie
 OUTPUT_DIR = Path("output")
 OUTPUT_DIR.mkdir(exist_ok=True)
+FIGURES_DIR = OUTPUT_DIR / "figures"
+FIGURES_DIR.mkdir(exist_ok=True)
+TABLES_DIR = OUTPUT_DIR / "tables"
+TABLES_DIR.mkdir(exist_ok=True)
+# Vérification de validité des fichiers
+def is_valid_file(file_path):
     try:
+        if file_path.suffix.lower() in [".pdf", ".docx", ".pptx", ".html", ".png", ".jpg"]:
+            return True
+        else:
+            st.error(f"❌ Format non supporté : {file_path.suffix}")
+            return False
     except Exception as e:
+        st.error(f"❌ Erreur lors de la vérification du fichier : {e}")
         return False
 # Fonction pour configurer le convertisseur de documents
         do_cell_matching=True,
     )
+    # OCR avec le moteur choisi
     if ocr_engine == "easyocr":
         ocr_options = EasyOcrOptions(lang=ocr_languages)
     elif ocr_engine == "tesseract_cli":
         format_options={InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)},
     )
+# Interface utilisateur avec Streamlit
+st.title("📄 Conversion de documents avec OCR et export multimodal")
+st.subheader("🖼️ Téléchargez un document pour commencer le traitement")
 uploaded_files = st.file_uploader(
+    "Sélectionnez vos fichiers (PDF, DOCX, PPTX, HTML, Images)", accept_multiple_files=True
 )
 use_ocr = st.checkbox("👁️‍🗨️ Activer l'OCR", value=True)
 export_figures = st.checkbox("🖼️ Exporter les images", value=True)
 ocr_engine = st.selectbox("Moteur OCR", ["easyocr", "tesseract_cli", "tesserocr", "rapidocr", "ocrmac"])
 ocr_languages = st.text_input("Langues OCR (ex : eng, fra)", "eng").split(",")
 table_mode = st.selectbox("Mode des tableaux", ["ACCURATE", "FAST"])
+export_formats = st.multiselect(
+    "Formats d'exportation", ["json", "yaml", "md", "multimodal"], default=["md"]
+)
 if st.button("Convertir"):
     if uploaded_files:
                 f.write(uploaded_file.read())
             st.write(f"📥 Fichier reçu : `{file_path.name}` ({os.path.getsize(file_path)} octets)")
+            if not is_valid_file(file_path):
                 continue
             input_paths.append(file_path)
+        # Configurer le convertisseur
         converter = create_document_converter(
             use_ocr,
             export_figures,
             ocr_languages=ocr_languages,
         )
+        # Barre de progression
         progress_bar = st.progress(0)
         status_placeholder = st.empty()
             for conv_res in conv_results:
                 if conv_res.status == ConversionStatus.SUCCESS:
                     st.success(f"✅ Conversion réussie : `{conv_res.input.file}`")
+                    for fmt in export_formats:
+                        output_file = OUTPUT_DIR / f"{conv_res.input.file.stem}.{fmt}"
+                        if fmt == "md":
+                            with open(output_file, "w") as f:
+                                f.write(f"## Contenu converti pour `{conv_res.input.file}`")
+                        elif fmt == "json":
+                            with open(output_file, "w", encoding="utf-8") as f:
+                                json.dump(conv_res.document.export_to_dict(), f, ensure_ascii=False, indent=2)
+                        elif fmt == "yaml":
+                            with open(output_file, "w", encoding="utf-8") as f:
+                                yaml.dump(conv_res.document.export_to_dict(), f, allow_unicode=True)
+                        elif fmt == "multimodal":
+                            # Simulation d'un export multimodal
+                            multimodal_output = OUTPUT_DIR / f"{conv_res.input.file.stem}_multimodal.parquet"
+                            st.write(f"Multimodal export simulé : `{multimodal_output}`")
+                        generated_files.append(output_file)
                 else:
                     st.error(f"❌ Échec de la conversion pour : `{conv_res.input.file}`")
             # Mise à jour de la barre de progression
             progress_bar.progress((i + 1) / total_files)
         total_time = time.time() - start_time
         st.success(f"✅ Conversion terminée en {int(total_time)} secondes !")
     else:
+        st.error("❌ Veuillez télécharger au moins un fichier.")