convert_test

Sleeping

App Files Files Community

Bentham commited on Dec 20, 2024

Commit

b85ed98

verified ·

1 Parent(s): 64c8a0b

Update main.py

Browse files

Files changed (1) hide show

main.py +9 -29

main.py CHANGED Viewed

@@ -399,10 +399,9 @@ async def clean_html_content(html_content: str, image_counter: List[int], images
                         images_data[f"IMG_{X}"] = {
                             'base64_image': base64_image
                         }
-                        comment = Comment(f"IMG_{X}")
-                        img.replace_with(comment)
                         image_counter[0] += 1
-                        logging.debug(f"Image {X} remplacée par commentaire IMG_{X}")
                     else:
                         img.decompose()
                 else:
@@ -410,7 +409,6 @@ async def clean_html_content(html_content: str, image_counter: List[int], images
     else:
         logging.debug("No <img> tags found in the HTML content.")
-    # Supprimer toute balise <img> restante
     for img in soup.find_all('img'):
         img.decompose()
@@ -426,8 +424,6 @@ async def clean_html_content(html_content: str, image_counter: List[int], images
     return str(soup)
 def reinsert_images(html_content: str, images_data: Dict[str, Dict[str, str]]) -> str:
     soup = BeautifulSoup(html_content, 'html.parser')
@@ -614,21 +610,11 @@ async def process_file_accessibility(job_id: str, input_file_path: str, ext: str
             html_content = convert_with_pandoc(input_file_path, input_format)
             html_content = insert_page_comments_every_15_paragraphs(html_content)
-        # Ajout de journaux pour inspecter le HTML converti
-        logging.debug(f"HTML après conversion et insertion des commentaires de page (premiers 1000 caractères): {html_content[:1000]}...")
         # Nettoyage et extraction des images
         image_counter = [1]
         images_data = {}
         cleaned_html = await clean_html_content(html_content, image_counter, images_data)
-        logging.debug(f"HTML nettoyé après extraction des images (premiers 500 caractères): {cleaned_html[:500]}...")  # Affiche les 500 premiers caractères
-        # Vérifier la présence des balises <img> dans le HTML nettoyé
-        cleaned_soup = BeautifulSoup(cleaned_html, 'html.parser')
-        img_tags = cleaned_soup.find_all('img')
-        logging.debug(f"Nombre de balises <img> détectées après nettoyage : {len(img_tags)}")
-        for img in img_tags[:5]:  # Limiter à 5 pour éviter un trop grand nombre de logs
-            logging.debug(f"Balise <img> détectée : {img}")
         # Décrire les images
@@ -765,23 +751,17 @@ async def convert_file_to_txt(
             input_format = get_pandoc_format(ext)
             html_content = convert_with_pandoc(input_filename, input_format)
-        # Ajout de journaux pour inspecter le HTML converti
-        logging.debug(f"HTML après conversion et insertion des commentaires de page (premiers 1000 caractères): {html_content[:1000]}...")
         # Nettoyage et extraction des images
         image_counter = [1]
         images_data = {}
         cleaned_html = await clean_html_content(html_content, image_counter, images_data)
-        # Ajout de journaux après le nettoyage
-        logging.debug(f"HTML nettoyé après extraction des images (premiers 500 caractères): {cleaned_html[:500]}...")
-        # Vérifier la présence des balises <img> dans le HTML nettoyé
         cleaned_soup = BeautifulSoup(cleaned_html, 'html.parser')
-        img_tags = cleaned_soup.find_all('img')
-        logging.debug(f"Nombre de balises <img> détectées après nettoyage : {len(img_tags)}")
-        for img in img_tags[:5]:  # Limiter à 5 pour éviter un trop grand nombre de logs
-            logging.debug(f"Balise <img> détectée : {img}")
         # Description des images pour le mode texte
         for image_key in images_data:
@@ -874,4 +854,4 @@ async def convert_file_to_txt(
         return JSONResponse(status_code=http_exc.status_code, content={"message": http_exc.detail})
     except Exception as e:
         logging.error(f"Erreur interne lors de la conversion : {str(e)}")
-        return JSONResponse(status_code=500, content={"message": f"Erreur interne : {str(e)}"})

                         images_data[f"IMG_{X}"] = {
                             'base64_image': base64_image
                         }
+                        placeholder = f"<!--IMG_{X}-->"
+                        img.replace_with(BeautifulSoup(placeholder, 'html.parser'))
                         image_counter[0] += 1
                     else:
                         img.decompose()
                 else:
     else:
         logging.debug("No <img> tags found in the HTML content.")
     for img in soup.find_all('img'):
         img.decompose()
     return str(soup)
 def reinsert_images(html_content: str, images_data: Dict[str, Dict[str, str]]) -> str:
     soup = BeautifulSoup(html_content, 'html.parser')
             html_content = convert_with_pandoc(input_file_path, input_format)
             html_content = insert_page_comments_every_15_paragraphs(html_content)
         # Nettoyage et extraction des images
         image_counter = [1]
         images_data = {}
         cleaned_html = await clean_html_content(html_content, image_counter, images_data)
+        logging.debug(f"HTML nettoyé après extraction des images : {cleaned_html[:500]}...")  # Affiche les 500 premiers caractères
         # Décrire les images
             input_format = get_pandoc_format(ext)
             html_content = convert_with_pandoc(input_filename, input_format)
         # Nettoyage et extraction des images
         image_counter = [1]
         images_data = {}
         cleaned_html = await clean_html_content(html_content, image_counter, images_data)
+        # Vérification des commentaires IMG_X dans le HTML nettoyé
         cleaned_soup = BeautifulSoup(cleaned_html, 'html.parser')
+        if any(re.match(r'IMG_\d+', str(comment)) for comment in cleaned_soup.find_all(string=lambda text: isinstance(text, Comment))):
+            logging.debug("Les commentaires IMG_X sont présents dans le HTML nettoyé.")
+        else:
+            logging.error("Les commentaires IMG_X ne sont PAS présents dans le HTML nettoyé.")
         # Description des images pour le mode texte
         for image_key in images_data:
         return JSONResponse(status_code=http_exc.status_code, content={"message": http_exc.detail})
     except Exception as e:
         logging.error(f"Erreur interne lors de la conversion : {str(e)}")
+        return JSONResponse(status_code=500, content={"message": f"Erreur interne : {str(e)}"})