accessibility

Sleeping

App Files Files Community

Bentham commited on Dec 19, 2024

Commit

79ff9c8

verified ·

1 Parent(s): e51aa49

Replacer les images dans convert_to_txt

Browse files

Files changed (1) hide show

main.py +55 -26

main.py CHANGED Viewed

@@ -484,6 +484,43 @@ async def rewrite_html_accessible(html_content: str) -> str:
     except Exception as e:
         logging.error(f"Erreur lors de la réécriture du HTML : {str(e)}")
         return html_content
 async def clean_html_content(html_content: str, image_counter: List[int], images_data: Dict[str, Dict[str, str]]) -> str:
     soup = BeautifulSoup(html_content, 'html.parser')
@@ -811,13 +848,9 @@ async def convert_file_to_txt(
         text = ""
         # MODIFICATIONS START: Extraction du texte et des images
-        images_data = []
         if ext == '.pdf':
-            with fitz.open(input_filename) as doc:
-                for page in doc:
-                    text += page.get_text()
-            # Extraire les images du PDF
-            images = extract_images_from_pdf(input_filename)
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
@@ -849,28 +882,31 @@ async def convert_file_to_txt(
         # Analyse des images
         # On récupère les descriptions des images
-        # Le prompt demandé : "Cette image est incluse dans un cours. Je voudrais que tu me donnes toutes les informations pertinentes..."
         if images:
-            image_descriptions = []
             tasks = []
-            for i, img_bytes in enumerate(images, start=1):
                 base64_image = base64.b64encode(img_bytes).decode('utf-8')
-                tasks.append((i, asyncio.create_task(
                     get_image_description(
                         base64_image,
                         prompt="Cette image est incluse dans un cours. Je voudrais que tu me donnes toutes les informations pertinentes, pour qu'on puisse comprendre ce qu'elle contient sans la voir. Ne commente pas les couleurs, les formes et la disposition. Ne commente pas le fait que tu décris l'image : fais en sorte que l'image puisse être naturellement remplacée par ta description. Si l'image ne contient aucune information, ne renvoie rien du tout."
                     )
-                )))
-            results = await asyncio.gather(*(t for _, t in tasks))
-            for (i, _), description in zip(tasks, results):
-                image_descriptions.append((i, description))
-            # On ajoute les descriptions à la fin du texte
-            text += "\n\n---\n"
-            for num, desc in image_descriptions:
-                text += f"\nImage {num} : {desc}\n"
         # MODIFICATIONS END
         with open(output_filename, "w", encoding="utf-8") as f:
@@ -885,11 +921,4 @@ async def convert_file_to_txt(
             temp_files_to_delete.append(cleaned_input_filename)
         background_tasks.add_task(delete_temp_files, temp_files_to_delete)
-        return FileResponse(output_filename, filename=f"{base_filename}.txt")
-    except HTTPException as http_exc:
-        logging.error(f"Erreur HTTP lors de la conversion : {str(http_exc.detail)}")
-        return JSONResponse(status_code=http_exc.status_code, content={"message": http_exc.detail})
-    except Exception as e:
-        logging.error(f"Erreur interne lors de la conversion : {str(e)}")
-        return JSONResponse(status_code=500, content={"message": f"Erreur interne : {str(e)}"})

     except Exception as e:
         logging.error(f"Erreur lors de la réécriture du HTML : {str(e)}")
         return html_content
+def extract_text_with_image_markers(input_filename: str) -> Tuple[str, List[Tuple[int, bytes]]]:
+    """
+    Extrait le texte d'un PDF en insérant des marqueurs pour les images.
+    Args:
+        input_filename (str): Chemin vers le fichier PDF.
+    Returns:
+        Tuple[str, List[Tuple[int, bytes]]]: Le texte extrait avec des marqueurs et une liste d'images extraites.
+    """
+    text = ""
+    images = []
+    with fitz.open(input_filename) as doc:
+        for page_num, page in enumerate(doc, start=1):
+            page_json = page.get_text("json")
+            blocks = page_json["blocks"]
+            for block in blocks:
+                if block['type'] == 0:  # Texte
+                    for line in block.get('lines', []):
+                        for span in line.get('spans', []):
+                            text += span.get('text', '')
+                elif block['type'] == 1:  # Image
+                    # Insérer un marqueur unique pour l'image
+                    img_num = len(images) + 1
+                    marker = f"[IMG_{img_num}]"
+                    text += marker
+                    # Extraire l'image
+                    xref = block.get('xref')
+                    try:
+                        base_image = doc.extract_image(xref)
+                        image_bytes = base_image["image"]
+                        images.append((img_num, image_bytes))
+                    except Exception as e:
+                        logging.error(f"Erreur lors de l'extraction de l'image xref={xref} : {str(e)}")
+    return text, images
 async def clean_html_content(html_content: str, image_counter: List[int], images_data: Dict[str, Dict[str, str]]) -> str:
     soup = BeautifulSoup(html_content, 'html.parser')
         text = ""
         # MODIFICATIONS START: Extraction du texte et des images
+        images_data = {}
         if ext == '.pdf':
+            text, images = extract_text_with_image_markers(input_filename)
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
         # Analyse des images
         # On récupère les descriptions des images
         if images:
+            image_descriptions = {}
             tasks = []
+            for img_num, img_bytes in images:
                 base64_image = base64.b64encode(img_bytes).decode('utf-8')
+                tasks.append(asyncio.create_task(
                     get_image_description(
                         base64_image,
                         prompt="Cette image est incluse dans un cours. Je voudrais que tu me donnes toutes les informations pertinentes, pour qu'on puisse comprendre ce qu'elle contient sans la voir. Ne commente pas les couleurs, les formes et la disposition. Ne commente pas le fait que tu décris l'image : fais en sorte que l'image puisse être naturellement remplacée par ta description. Si l'image ne contient aucune information, ne renvoie rien du tout."
                     )
+                ))
+            descriptions = await asyncio.gather(*tasks)
+            for (img_num, _), desc in zip(images, descriptions):
+                if desc and desc != "Description indisponible.":
+                    image_descriptions[img_num] = desc
+                else:
+                    image_descriptions[img_num] = "Description indisponible."
+            # Remplacer les marqueurs par les descriptions
+            for img_num, desc in image_descriptions.items():
+                marker = f"[IMG_{img_num}]"
+                description_text = f"Image {img_num}: {desc}"
+                text = text.replace(marker, description_text)
         # MODIFICATIONS END
         with open(output_filename, "w", encoding="utf-8") as f:
             temp_files_to_delete.append(cleaned_input_filename)
         background_tasks.add_task(delete_temp_files, temp_files_to_delete)
+        return FileResponse(output_filename, filename=f"{base_filename}.txt")