accessibility

Sleeping

App Files Files Community

Bentham commited on Dec 19, 2024

Commit

ed7f706

verified ·

1 Parent(s): af461e5

extract text with mrkers

Browse files

Files changed (1) hide show

main.py +36 -0

main.py CHANGED Viewed

@@ -753,6 +753,42 @@ def extract_images_from_pdf(input_filename: str) -> List[bytes]:
     logging.info(f"Extraction des images terminée. Nombre total d'images extraites : {len(images)}")
     return images
 def extract_images_from_ppt(input_filename: str) -> List[bytes]:
     images = []

     logging.info(f"Extraction des images terminée. Nombre total d'images extraites : {len(images)}")
     return images
+def extract_text_with_image_markers(input_filename: str) -> Tuple[str, List[Tuple[int, bytes]]]:
+    """
+    Extrait le texte d'un PDF en insérant des marqueurs pour les images.
+    Args:
+        input_filename (str): Chemin vers le fichier PDF.
+    Returns:
+        Tuple[str, List[Tuple[int, bytes]]]: Le texte extrait avec des marqueurs et une liste d'images extraites.
+    """
+    text = ""
+    images = []
+    with fitz.open(input_filename) as doc:
+        for page_num, page in enumerate(doc, start=1):
+            page_json = page.get_text("json")
+            blocks = page_json["blocks"]
+            for block in blocks:
+                if block['type'] == 0:  # Texte
+                    for line in block.get('lines', []):
+                        for span in line.get('spans', []):
+                            text += span.get('text', '')
+                elif block['type'] == 1:  # Image
+                    # Insérer un marqueur unique pour l'image
+                    img_num = len(images) + 1
+                    marker = f"[IMG_{img_num}]"
+                    text += marker
+                    # Extraire l'image
+                    xref = block.get('xref')
+                    try:
+                        base_image = doc.extract_image(xref)
+                        image_bytes = base_image["image"]
+                        images.append((img_num, image_bytes))
+                    except Exception as e:
+                        logging.error(f"Erreur lors de l'extraction de l'image xref={xref} : {str(e)}")
+    return text, images
 def extract_images_from_ppt(input_filename: str) -> List[bytes]:
     images = []