accessibility

Sleeping

App Files Files Community

Bentham commited on Dec 19, 2024

Commit

0acd9a7

verified ·

1 Parent(s): 2b4e713

Nouvelle version : description d'image dans les imports simples

Browse files

Files changed (1) hide show

main.py +108 -23

main.py CHANGED Viewed

@@ -26,6 +26,7 @@ from bs4 import BeautifulSoup, Comment
 try:
     from pptx import Presentation
 except ImportError:
     pass
@@ -147,12 +148,11 @@ async def convert_to_accessible_html(input_filename, ext, base_filename, image_c
         if ext == '.pdf':
             # PDF -> HTML avec pages
             html_content = pdf_to_html(input_filename)
-            # Pour le PDF, on a déjà des <!--PAGE_X--> par page, pas besoin d'en ajouter toutes les 20 lignes
         elif ext in ['.ppt', '.pptx']:
             # PPT/PPTX -> texte -> HTML minimal
             text = convert_ppt_to_text(input_filename)
             html_content = text_to_html(text)
-            # Ajouter les <!--PAGE_X--> toutes les 20 lignes pour ce format
             html_content = insert_page_comments_every_20_paragraphs(html_content)
         elif ext == '.doc':
             # DOC -> texte (textract) -> HTML minimal
@@ -166,14 +166,12 @@ async def convert_to_accessible_html(input_filename, ext, base_filename, image_c
                 doc = Document(html_content)
                 html_content = doc.summary()
             except Exception as e:
-                logging.error(f"Erreur lors du nettoyage HTML avec readability-lxml : {str(e)}")
-            # Ajouter les <!--PAGE_X--> toutes les 20 lignes
             html_content = insert_page_comments_every_20_paragraphs(html_content)
         else:
             # Formats gérés par Pandoc
             input_format = get_pandoc_format(ext)
             html_content = convert_with_pandoc(input_filename, input_format)
-            # Ajouter les <!--PAGE_X--> toutes les 20 lignes
             html_content = insert_page_comments_every_20_paragraphs(html_content)
         # Nettoyage
@@ -183,9 +181,19 @@ async def convert_to_accessible_html(input_filename, ext, base_filename, image_c
         html_rewrite_task = asyncio.create_task(rewrite_html_accessible(cleaned_html))
         # Traitement des images (description)
         for image_key in images_data:
             base64_image = images_data[image_key]['base64_image']
-            description = await get_image_description(base64_image)
             images_data[image_key]['description'] = description
         await html_rewrite_task
@@ -215,13 +223,11 @@ async def convert_to_accessible_html(input_filename, ext, base_filename, image_c
         return None
 def insert_page_comments_every_20_paragraphs(html_content: str) -> str:
-    # Insère un commentaire <!--PAGE_X--> toutes les 20 balises <p>
     soup = BeautifulSoup(html_content, 'html.parser')
     paragraphs = soup.find_all('p')
     page_number = 1
-    count = 0
     for i, p in enumerate(paragraphs, start=1):
-        if i % 20 == 1:  # Avant le premier <p> d'un "bloc"
             comment = soup.new_string(f"<!--PAGE_{page_number}-->")
             p.insert_before(comment)
             page_number += 1
@@ -400,7 +406,9 @@ def markdown_to_html(markdown_text: str) -> str:
     html = re.sub(r'_(.*?)_', r'<i>\1</i>', html)
     return html
-async def get_image_description(base64_image: str) -> str:
     try:
         response = await client.chat.completions.create(
             model="gpt-4o-mini",
@@ -410,7 +418,7 @@ async def get_image_description(base64_image: str) -> str:
                     "content": [
                         {
                             "type": "text",
-                            "text": "Décris ce que l'on peut voir sur cette image, pour qu'un lecteur malvoyant puisse comprendre ce qu'elle représente.",
                         },
                         {
                             "type": "image_url",
@@ -427,6 +435,7 @@ async def get_image_description(base64_image: str) -> str:
     except Exception as e:
         logging.error(f"Erreur lors de l'appel à l'API OpenAI : {str(e)}")
         return "Description indisponible."
 async def rewrite_html_accessible(html_content: str) -> str:
     prompt = (
@@ -469,7 +478,7 @@ async def rewrite_html_accessible(html_content: str) -> str:
         response = await client.chat.completions.create(
             model="o1-mini",
             messages=[
-                {"role": "user", "content": prompt}
             ],
         )
         rewritten_html = response.choices[0].message.content.strip()
@@ -713,6 +722,49 @@ def delete_temp_files(file_paths: list):
         except Exception as e:
             logging.error(f"Erreur lors de la suppression du fichier {file_path} : {str(e)}")
 @app.post("/convert_to_txt/")
 async def convert_file_to_txt(
     file: UploadFile = File(...),
@@ -749,13 +801,15 @@ async def convert_file_to_txt(
         unique_id = uuid.uuid4().hex
         output_filename = os.path.join(tempfile.gettempdir(), f"{base_filename}_{unique_id}.txt")
         if ext == '.pdf':
-            text = ""
             with fitz.open(input_filename) as doc:
                 for page in doc:
                     text += page.get_text()
-            with open(output_filename, "w", encoding="utf-8") as f:
-                f.write(text)
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
@@ -766,29 +820,60 @@ async def convert_file_to_txt(
                     if hasattr(shape, "text"):
                         text_content.append(shape.text)
             text = "\n".join(text_content)
-            with open(output_filename, "w", encoding="utf-8") as f:
-                f.write(text)
         elif ext == '.ppt':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
-            with open(output_filename, "w", encoding="utf-8") as f:
-                f.write(text)
         elif ext == '.doc':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
-            with open(output_filename, "w", encoding="utf-8") as f:
-                f.write(text)
         else:
-            output = pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
         if not os.path.exists(output_filename):
             logging.error(f"Le fichier {output_filename} n'a pas été généré.")
             raise HTTPException(status_code=500, detail="Erreur lors de la conversion.")
         temp_files_to_delete = [input_filename, output_filename]
-        if ext in ['.html', '.htm']:
             temp_files_to_delete.append(cleaned_input_filename)
         background_tasks.add_task(delete_temp_files, temp_files_to_delete)

 try:
     from pptx import Presentation
+    from pptx.enum.shapes import MSO_SHAPE_TYPE
 except ImportError:
     pass
         if ext == '.pdf':
             # PDF -> HTML avec pages
             html_content = pdf_to_html(input_filename)
+            # Pour le PDF, on a déjà des <!--PAGE_X--> par page
         elif ext in ['.ppt', '.pptx']:
             # PPT/PPTX -> texte -> HTML minimal
             text = convert_ppt_to_text(input_filename)
             html_content = text_to_html(text)
             html_content = insert_page_comments_every_20_paragraphs(html_content)
         elif ext == '.doc':
             # DOC -> texte (textract) -> HTML minimal
                 doc = Document(html_content)
                 html_content = doc.summary()
             except Exception as e:
+                logging.error(f"Erreur lors du nettoyage HTML : {str(e)}")
             html_content = insert_page_comments_every_20_paragraphs(html_content)
         else:
             # Formats gérés par Pandoc
             input_format = get_pandoc_format(ext)
             html_content = convert_with_pandoc(input_filename, input_format)
             html_content = insert_page_comments_every_20_paragraphs(html_content)
         # Nettoyage
         html_rewrite_task = asyncio.create_task(rewrite_html_accessible(cleaned_html))
         # Traitement des images (description)
+        tasks = []
         for image_key in images_data:
             base64_image = images_data[image_key]['base64_image']
+            tasks.append((image_key, asyncio.create_task(
+                get_image_description(
+                    base64_image,
+                    prompt="Décris ce que l'on peut voir sur cette image, pour qu'un lecteur malvoyant puisse comprendre ce qu'elle représente."
+                )
+            )))
+        results = await asyncio.gather(*(t for _, t in tasks))
+        for (image_key, _), description in zip(tasks, results):
             images_data[image_key]['description'] = description
         await html_rewrite_task
         return None
 def insert_page_comments_every_20_paragraphs(html_content: str) -> str:
     soup = BeautifulSoup(html_content, 'html.parser')
     paragraphs = soup.find_all('p')
     page_number = 1
     for i, p in enumerate(paragraphs, start=1):
+        if i % 20 == 1:
             comment = soup.new_string(f"<!--PAGE_{page_number}-->")
             p.insert_before(comment)
             page_number += 1
     html = re.sub(r'_(.*?)_', r'<i>\1</i>', html)
     return html
+# MODIFICATIONS START
+# On rend le prompt pour get_image_description paramétrable
+async def get_image_description(base64_image: str, prompt: str) -> str:
     try:
         response = await client.chat.completions.create(
             model="gpt-4o-mini",
                     "content": [
                         {
                             "type": "text",
+                            "text": prompt,
                         },
                         {
                             "type": "image_url",
     except Exception as e:
         logging.error(f"Erreur lors de l'appel à l'API OpenAI : {str(e)}")
         return "Description indisponible."
+# MODIFICATIONS END
 async def rewrite_html_accessible(html_content: str) -> str:
     prompt = (
         response = await client.chat.completions.create(
             model="o1-mini",
             messages=[
+                {"role": "user", "content": prompt + html_content}
             ],
         )
         rewritten_html = response.choices[0].message.content.strip()
         except Exception as e:
             logging.error(f"Erreur lors de la suppression du fichier {file_path} : {str(e)}")
+# MODIFICATIONS START
+def extract_images_from_pdf(input_filename: str) -> List[bytes]:
+    images = []
+    with fitz.open(input_filename) as doc:
+        smask_xrefs = set()  # Servira à lister les xrefs d'images masques
+        main_images = []     # Servira à lister les infos des images principales
+        for page in doc:
+            img_list = page.get_images(full=True)
+            for img in img_list:
+                xref, smask, width, height, bpc, colorspace, filters = img[:7]
+                # Si smask != 0, c'est une image principale avec un masque
+                # On ajoute le xref du masque à la liste des images à ignorer
+                if smask != 0:
+                    smask_xrefs.add(smask)
+                # On enregistre l'image principale
+                main_images.append((xref, smask))
+        # Maintenant on extrait uniquement les images qui ne sont pas des masques
+        for (xref, smask) in main_images:
+            # Si xref est dans smask_xrefs, c'est une image de masque à ignorer
+            if xref in smask_xrefs:
+                continue
+            # Extraire l'image
+            base_image = doc.extract_image(xref)
+            image_bytes = base_image["image"]
+            images.append(image_bytes)
+    return images
+def extract_images_from_ppt(input_filename: str) -> List[bytes]:
+    images = []
+    if 'Presentation' not in globals():
+        return images
+    prs = Presentation(input_filename)
+    for slide in prs.slides:
+        for shape in slide.shapes:
+            if shape.shape_type == MSO_SHAPE_TYPE.PICTURE:
+                image = shape.image
+                image_bytes = image.blob
+                images.append(image_bytes)
+    return images
+# MODIFICATIONS END
 @app.post("/convert_to_txt/")
 async def convert_file_to_txt(
     file: UploadFile = File(...),
         unique_id = uuid.uuid4().hex
         output_filename = os.path.join(tempfile.gettempdir(), f"{base_filename}_{unique_id}.txt")
+        text = ""
+        # MODIFICATIONS START: Extraction du texte et des images
+        images_data = []
         if ext == '.pdf':
             with fitz.open(input_filename) as doc:
                 for page in doc:
                     text += page.get_text()
+            # Extraire les images du PDF
+            images = extract_images_from_pdf(input_filename)
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
                     if hasattr(shape, "text"):
                         text_content.append(shape.text)
             text = "\n".join(text_content)
+            images = extract_images_from_ppt(input_filename)
         elif ext == '.ppt':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
+            images = extract_images_from_ppt(input_filename)
         elif ext == '.doc':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
+            # Pas d'extraction d'images simple pour .doc ici
+            images = []
         else:
+            # Autres formats pris en charge par pandoc (sans extraction d'image)
+            pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
+            with open(output_filename, "r", encoding="utf-8") as f:
+                text = f.read()
+            images = []
+        # Analyse des images
+        # On récupère les descriptions des images
+        # Le prompt demandé : "Cette image est incluse dans un cours. Je voudrais que tu me donnes toutes les informations pertinentes..."
+        if images:
+            image_descriptions = []
+            tasks = []
+            for i, img_bytes in enumerate(images, start=1):
+                base64_image = base64.b64encode(img_bytes).decode('utf-8')
+                tasks.append((i, asyncio.create_task(
+                    get_image_description(
+                        base64_image,
+                        prompt="Cette image est incluse dans un cours. Je voudrais que tu me donnes toutes les informations pertinentes, pour qu'on puisse comprendre ce qu'elle contient sans la voir. Ne commente pas les couleurs, les formes et la disposition. Ne commente pas le fait que tu décris l'image : fais en sorte que l'image puisse être naturellement remplacée par ta description. Si l'image ne contient aucune information, ne renvoie rien du tout."
+                    )
+                )))
+            results = await asyncio.gather(*(t for _, t in tasks))
+            for (i, _), description in zip(tasks, results):
+                image_descriptions.append((i, description))
+            # On ajoute les descriptions à la fin du texte
+            text += "\n\n---\n"
+            for num, desc in image_descriptions:
+                text += f"\nImage {num} : {desc}\n"
+        # MODIFICATIONS END
+        with open(output_filename, "w", encoding="utf-8") as f:
+            f.write(text)
         if not os.path.exists(output_filename):
             logging.error(f"Le fichier {output_filename} n'a pas été généré.")
             raise HTTPException(status_code=500, detail="Erreur lors de la conversion.")
         temp_files_to_delete = [input_filename, output_filename]
+        if ext in ['.html', '.htm'] and 'cleaned_input_filename' in locals():
             temp_files_to_delete.append(cleaned_input_filename)
         background_tasks.add_task(delete_temp_files, temp_files_to_delete)