accessibility

Sleeping

App Files Files Community

Bentham commited on Dec 19, 2024

Commit

76171bc

verified ·

1 Parent(s): 79ff9c8

erreur

Browse files

Files changed (1) hide show

main.py +9 -51

main.py CHANGED Viewed

@@ -139,7 +139,7 @@ def delete_files_after_delay(file_paths: List[str], delay: int = 6000):
 async def convert_to_accessible_html(input_filename, ext, base_filename, image_counter, images_data):
     try:
         if ext == '.pdf':
-            # PDF -> HTML avec pages
             html_content = pdf_to_html(input_filename)
             # Pour le PDF, on a déjà des <!--PAGE_X--> par page
         elif ext in ['.ppt', '.pptx']:
@@ -152,15 +152,6 @@ async def convert_to_accessible_html(input_filename, ext, base_filename, image_c
             text = convert_doc_to_text(input_filename)
             html_content = text_to_html(text)
             html_content = insert_page_comments_every_20_paragraphs(html_content)
-        elif ext in ['.html', '.htm']:
-            with open(input_filename, 'r', encoding='utf-8') as f:
-                html_content = f.read()
-            try:
-                doc = Document(html_content)
-                html_content = doc.summary()
-            except Exception as e:
-                logging.error(f"Erreur lors du nettoyage HTML : {str(e)}")
-            html_content = insert_page_comments_every_20_paragraphs(html_content)
         else:
             # Formats gérés par Pandoc
             input_format = get_pandoc_format(ext)
@@ -184,10 +175,14 @@ async def convert_to_accessible_html(input_filename, ext, base_filename, image_c
                 )
             )))
-        results = await asyncio.gather(*(t for _, t in tasks))
         for (image_key, _), description in zip(tasks, results):
-            images_data[image_key]['description'] = description
         await html_rewrite_task
         rewritten_html = html_rewrite_task.result()
@@ -228,6 +223,7 @@ def insert_page_comments_every_20_paragraphs(html_content: str) -> str:
 def insert_css_into_html(html_content: str) -> str:
     css_code = """
     :root {
         --font-size-min: 1rem;
         --font-size-base: 1rem;
@@ -433,7 +429,7 @@ async def get_image_description(base64_image: str, prompt: str) -> str:
 async def rewrite_html_accessible(html_content: str) -> str:
     prompt = (
         "Je vais te donner un fichier HTML, et je voudrais que tu le réécrives pour permettre l'accessibilité à toutes les formes de handicap, tout en **préservant strictement l'ordre du contenu original**.\n"
-		"Commence à analyser le plan du document. Il faut d'abord identifier les titres et comprendre leur logique :\n"
         "- A priori, les titres qui sont préfixés par une écriture romaine (I, II, III), "
         "par un nombre (1, 2, 3) ou par une lettre (a, b, c, ou bien A, B, C) doivent être de même niveau."
         "Idem pour les titres rédigés en majuscules.\n"
@@ -484,43 +480,6 @@ async def rewrite_html_accessible(html_content: str) -> str:
     except Exception as e:
         logging.error(f"Erreur lors de la réécriture du HTML : {str(e)}")
         return html_content
-def extract_text_with_image_markers(input_filename: str) -> Tuple[str, List[Tuple[int, bytes]]]:
-    """
-    Extrait le texte d'un PDF en insérant des marqueurs pour les images.
-    Args:
-        input_filename (str): Chemin vers le fichier PDF.
-    Returns:
-        Tuple[str, List[Tuple[int, bytes]]]: Le texte extrait avec des marqueurs et une liste d'images extraites.
-    """
-    text = ""
-    images = []
-    with fitz.open(input_filename) as doc:
-        for page_num, page in enumerate(doc, start=1):
-            page_json = page.get_text("json")
-            blocks = page_json["blocks"]
-            for block in blocks:
-                if block['type'] == 0:  # Texte
-                    for line in block.get('lines', []):
-                        for span in line.get('spans', []):
-                            text += span.get('text', '')
-                elif block['type'] == 1:  # Image
-                    # Insérer un marqueur unique pour l'image
-                    img_num = len(images) + 1
-                    marker = f"[IMG_{img_num}]"
-                    text += marker
-                    # Extraire l'image
-                    xref = block.get('xref')
-                    try:
-                        base_image = doc.extract_image(xref)
-                        image_bytes = base_image["image"]
-                        images.append((img_num, image_bytes))
-                    except Exception as e:
-                        logging.error(f"Erreur lors de l'extraction de l'image xref={xref} : {str(e)}")
-    return text, images
 async def clean_html_content(html_content: str, image_counter: List[int], images_data: Dict[str, Dict[str, str]]) -> str:
     soup = BeautifulSoup(html_content, 'html.parser')
@@ -721,7 +680,6 @@ async def convert_file_to_html(
         logging.error(f"Erreur lors du démarrage du job : {str(e)}")
         return JSONResponse(status_code=500, content={"message": f"Erreur lors du démarrage du job : {str(e)}"})
 @app.get("/status/{job_id}")
 async def check_status(job_id: str):
     status_data = get_job_status(job_id)

 async def convert_to_accessible_html(input_filename, ext, base_filename, image_counter, images_data):
     try:
         if ext == '.pdf':
+            # PDF -> HTML avec pages et marqueurs IMG_X
             html_content = pdf_to_html(input_filename)
             # Pour le PDF, on a déjà des <!--PAGE_X--> par page
         elif ext in ['.ppt', '.pptx']:
             text = convert_doc_to_text(input_filename)
             html_content = text_to_html(text)
             html_content = insert_page_comments_every_20_paragraphs(html_content)
         else:
             # Formats gérés par Pandoc
             input_format = get_pandoc_format(ext)
                 )
             )))
+        results = await asyncio.gather(*(t for _, t in tasks), return_exceptions=True)
         for (image_key, _), description in zip(tasks, results):
+            if isinstance(description, Exception):
+                logging.error(f"Erreur lors de la description de l'image {image_key} : {str(description)}")
+                images_data[image_key]['description'] = "Description indisponible."
+            else:
+                images_data[image_key]['description'] = description
         await html_rewrite_task
         rewritten_html = html_rewrite_task.result()
 def insert_css_into_html(html_content: str) -> str:
     css_code = """
+    /* Votre code CSS ici */
     :root {
         --font-size-min: 1rem;
         --font-size-base: 1rem;
 async def rewrite_html_accessible(html_content: str) -> str:
     prompt = (
         "Je vais te donner un fichier HTML, et je voudrais que tu le réécrives pour permettre l'accessibilité à toutes les formes de handicap, tout en **préservant strictement l'ordre du contenu original**.\n"
+        "Commence à analyser le plan du document. Il faut d'abord identifier les titres et comprendre leur logique :\n"
         "- A priori, les titres qui sont préfixés par une écriture romaine (I, II, III), "
         "par un nombre (1, 2, 3) ou par une lettre (a, b, c, ou bien A, B, C) doivent être de même niveau."
         "Idem pour les titres rédigés en majuscules.\n"
     except Exception as e:
         logging.error(f"Erreur lors de la réécriture du HTML : {str(e)}")
         return html_content
 async def clean_html_content(html_content: str, image_counter: List[int], images_data: Dict[str, Dict[str, str]]) -> str:
     soup = BeautifulSoup(html_content, 'html.parser')
         logging.error(f"Erreur lors du démarrage du job : {str(e)}")
         return JSONResponse(status_code=500, content={"message": f"Erreur lors du démarrage du job : {str(e)}"})
 @app.get("/status/{job_id}")
 async def check_status(job_id: str):
     status_data = get_job_status(job_id)