accessibility

Sleeping

App Files Files Community

Bentham commited on Dec 19, 2024

Commit

e51aa49

verified ·

1 Parent(s): 0acd9a7

résolution de bugs ?

Browse files

Files changed (1) hide show

main.py +25 -17

main.py CHANGED Viewed

@@ -91,7 +91,7 @@ def get_job_status(job_id: str):
         status_data = json.load(f)
     return status_data
-def process_file(job_id: str, input_file_path: str, ext: str, original_filename: str):
     job_dir = os.path.join(JOBS_DIR, job_id)
     try:
         update_job_status(job_id, 'processing', 'Le fichier est en cours de traitement')
@@ -101,16 +101,9 @@ def process_file(job_id: str, input_file_path: str, ext: str, original_filename:
         base_filename = os.path.splitext(original_filename)[0]
         output_filename = os.path.join(job_dir, f"{base_filename}.html")
-        loop = asyncio.new_event_loop()
-        asyncio.set_event_loop(loop)
-        try:
-            final_html = loop.run_until_complete(
-                convert_to_accessible_html(
-                    input_file_path, ext, base_filename, image_counter, images_data
-                )
-            )
-        finally:
-            loop.close()
         if not final_html:
             update_job_status(job_id, 'error', 'Erreur lors de la conversion.')
@@ -682,6 +675,7 @@ async def convert_file_to_html(
         with open(status_file, 'w') as f:
             json.dump(status, f)
         background_tasks.add_task(process_file, job_id, input_file_path, ext, file.filename)
         return JSONResponse(content={'job_id': job_id})
@@ -690,6 +684,7 @@ async def convert_file_to_html(
         logging.error(f"Erreur lors du démarrage du job : {str(e)}")
         return JSONResponse(status_code=500, content={"message": f"Erreur lors du démarrage du job : {str(e)}"})
 @app.get("/status/{job_id}")
 async def check_status(job_id: str):
     status_data = get_job_status(job_id)
@@ -729,28 +724,41 @@ def extract_images_from_pdf(input_filename: str) -> List[bytes]:
         smask_xrefs = set()  # Servira à lister les xrefs d'images masques
         main_images = []     # Servira à lister les infos des images principales
-        for page in doc:
             img_list = page.get_images(full=True)
-            for img in img_list:
                 xref, smask, width, height, bpc, colorspace, filters = img[:7]
                 # Si smask != 0, c'est une image principale avec un masque
                 # On ajoute le xref du masque à la liste des images à ignorer
                 if smask != 0:
                     smask_xrefs.add(smask)
                 # On enregistre l'image principale
                 main_images.append((xref, smask))
         # Maintenant on extrait uniquement les images qui ne sont pas des masques
         for (xref, smask) in main_images:
             # Si xref est dans smask_xrefs, c'est une image de masque à ignorer
             if xref in smask_xrefs:
                 continue
-            # Extraire l'image
-            base_image = doc.extract_image(xref)
-            image_bytes = base_image["image"]
-            images.append(image_bytes)
     return images
 def extract_images_from_ppt(input_filename: str) -> List[bytes]:
     images = []
     if 'Presentation' not in globals():

         status_data = json.load(f)
     return status_data
+async def process_file(job_id: str, input_file_path: str, ext: str, original_filename: str):
     job_dir = os.path.join(JOBS_DIR, job_id)
     try:
         update_job_status(job_id, 'processing', 'Le fichier est en cours de traitement')
         base_filename = os.path.splitext(original_filename)[0]
         output_filename = os.path.join(job_dir, f"{base_filename}.html")
+        final_html = await convert_to_accessible_html(
+            input_file_path, ext, base_filename, image_counter, images_data
+        )
         if not final_html:
             update_job_status(job_id, 'error', 'Erreur lors de la conversion.')
         with open(status_file, 'w') as f:
             json.dump(status, f)
+        # Ajoutez la tâche asynchrone
         background_tasks.add_task(process_file, job_id, input_file_path, ext, file.filename)
         return JSONResponse(content={'job_id': job_id})
         logging.error(f"Erreur lors du démarrage du job : {str(e)}")
         return JSONResponse(status_code=500, content={"message": f"Erreur lors du démarrage du job : {str(e)}"})
 @app.get("/status/{job_id}")
 async def check_status(job_id: str):
     status_data = get_job_status(job_id)
         smask_xrefs = set()  # Servira à lister les xrefs d'images masques
         main_images = []     # Servira à lister les infos des images principales
+        for page_num, page in enumerate(doc, start=1):
             img_list = page.get_images(full=True)
+            logging.debug(f"Page {page_num} contient {len(img_list)} images.")
+            for img_index, img in enumerate(img_list, start=1):
+                if len(img) < 7:
+                    logging.warning(f"Image {img_index} sur la page {page_num} a moins de 7 éléments : {img}")
+                    continue  # Ignorer les images avec une structure inattendue
                 xref, smask, width, height, bpc, colorspace, filters = img[:7]
                 # Si smask != 0, c'est une image principale avec un masque
                 # On ajoute le xref du masque à la liste des images à ignorer
                 if smask != 0:
                     smask_xrefs.add(smask)
+                    logging.debug(f"Image {img_index} sur la page {page_num} a un masque (smask={smask}).")
                 # On enregistre l'image principale
                 main_images.append((xref, smask))
+        logging.debug(f"Nombre total d'images principales à extraire : {len(main_images)}")
         # Maintenant on extrait uniquement les images qui ne sont pas des masques
         for (xref, smask) in main_images:
             # Si xref est dans smask_xrefs, c'est une image de masque à ignorer
             if xref in smask_xrefs:
+                logging.debug(f"Image xref={xref} est un masque, elle sera ignorée.")
                 continue
+            try:
+                base_image = doc.extract_image(xref)
+                image_bytes = base_image["image"]
+                images.append(image_bytes)
+                logging.debug(f"Image xref={xref} extraite avec succès.")
+            except Exception as e:
+                logging.error(f"Erreur lors de l'extraction de l'image xref={xref} : {str(e)}")
+    logging.info(f"Extraction des images terminée. Nombre total d'images extraites : {len(images)}")
     return images
 def extract_images_from_ppt(input_filename: str) -> List[bytes]:
     images = []
     if 'Presentation' not in globals():