Spaces:

Artemis-IA
/

docling_converter

Running

App Files Files Community

Artemis-IA commited on 27 days ago

Commit

fec6a83

verified ·

1 Parent(s): 9c04880

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -6

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import time
 import datetime
 from pathlib import Path
 from typing import List
 from PyPDF2 import PdfReader
 import streamlit as st
 import pandas as pd
@@ -121,6 +122,8 @@ if st.button("Convertir"):
     if uploaded_files:
         input_paths = []
         generated_files = []
         total_files = len(uploaded_files)
         start_time = time.time()  # Chronomètre de démarrage
@@ -155,29 +158,38 @@ if st.button("Convertir"):
             status_placeholder.info(
                 f"🔄 Traitement de `{file_path.name}` ({i + 1}/{total_files})"
             )
-            file_start_time = time.time()
             # Conversion du fichier
             conv_results = list(converter.convert_all([file_path], raises_on_error=False))
             for conv_res in conv_results:
                 if conv_res.status == ConversionStatus.SUCCESS:
                     st.success(f"✅ Conversion réussie : `{conv_res.input.file}`")
                     for fmt in export_formats:
                         output_file = OUTPUT_DIR / f"{conv_res.input.file.stem}.{fmt}"
                         if fmt == "md":
                             with open(output_file, "w") as f:
-                                f.write(f"## Contenu converti pour `{conv_res.input.file}`")
                         elif fmt == "json":
                             with open(output_file, "w", encoding="utf-8") as f:
                                 json.dump(conv_res.document.export_to_dict(), f, ensure_ascii=False, indent=2)
                         elif fmt == "yaml":
                             with open(output_file, "w", encoding="utf-8") as f:
                                 yaml.dump(conv_res.document.export_to_dict(), f, allow_unicode=True)
-                        elif fmt == "multimodal":
-                            # Simulation d'un export multimodal
-                            multimodal_output = OUTPUT_DIR / f"{conv_res.input.file.stem}_multimodal.parquet"
-                            st.write(f"Multimodal export simulé : `{multimodal_output}`")
                         generated_files.append(output_file)
                 else:
                     st.error(f"❌ Échec de la conversion pour : `{conv_res.input.file}`")
@@ -192,6 +204,20 @@ if st.button("Convertir"):
                 content = f.read()
             st.text_area(f"Prévisualisation : {generated_file.name}", value=content, height=200)
         # Temps total écoulé
         total_time = time.time() - start_time
         st.success(f"✅ Conversion terminée en {int(total_time)} secondes !")

 import datetime
 from pathlib import Path
 from typing import List
+from PIL import Image
 from PyPDF2 import PdfReader
 import streamlit as st
 import pandas as pd
     if uploaded_files:
         input_paths = []
         generated_files = []
+        figures = []
+        tables = []
         total_files = len(uploaded_files)
         start_time = time.time()  # Chronomètre de démarrage
             status_placeholder.info(
                 f"🔄 Traitement de `{file_path.name}` ({i + 1}/{total_files})"
             )
             # Conversion du fichier
             conv_results = list(converter.convert_all([file_path], raises_on_error=False))
             for conv_res in conv_results:
                 if conv_res.status == ConversionStatus.SUCCESS:
                     st.success(f"✅ Conversion réussie : `{conv_res.input.file}`")
+                    # Exporter les résultats
                     for fmt in export_formats:
                         output_file = OUTPUT_DIR / f"{conv_res.input.file.stem}.{fmt}"
                         if fmt == "md":
                             with open(output_file, "w") as f:
+                                f.write(conv_res.document.export_to_markdown())
                         elif fmt == "json":
                             with open(output_file, "w", encoding="utf-8") as f:
                                 json.dump(conv_res.document.export_to_dict(), f, ensure_ascii=False, indent=2)
                         elif fmt == "yaml":
                             with open(output_file, "w", encoding="utf-8") as f:
                                 yaml.dump(conv_res.document.export_to_dict(), f, allow_unicode=True)
                         generated_files.append(output_file)
+                    # Export des figures et tables
+                    for element, _ in conv_res.document.iterate_items():
+                        if isinstance(element, PictureItem):
+                            fig_path = FIGURES_DIR / f"{conv_res.input.file.stem}_figure.png"
+                            element.image.pil_image.save(fig_path)
+                            figures.append(fig_path)
+                        elif isinstance(element, TableItem):
+                            table_path = TABLES_DIR / f"{conv_res.input.file.stem}_table.csv"
+                            table_df = element.export_to_dataframe()
+                            table_df.to_csv(table_path, index=False)
+                            tables.append(table_path)
                 else:
                     st.error(f"❌ Échec de la conversion pour : `{conv_res.input.file}`")
                 content = f.read()
             st.text_area(f"Prévisualisation : {generated_file.name}", value=content, height=200)
+        # Affichage des figures extraites
+        if figures:
+            st.subheader("🖼️ Figures extraites")
+            for fig in figures:
+                st.image(Image.open(fig), caption=fig.name)
+        # Affichage des tableaux extraits
+        if tables:
+            st.subheader("📋 Tableaux extraits")
+            for table in tables:
+                st.markdown(f"📄 **{table.name}**")
+                table_df = pd.read_csv(table)
+                st.dataframe(table_df)
         # Temps total écoulé
         total_time = time.time() - start_time
         st.success(f"✅ Conversion terminée en {int(total_time)} secondes !")