convert_test

Sleeping

App Files Files Community

Bentham commited on Dec 20, 2024

Commit

ea09039

verified ·

1 Parent(s): b1c0fa5

ppt pypandoc

Browse files

Files changed (1) hide show

main.py +12 -14

main.py CHANGED Viewed

@@ -785,13 +785,11 @@ async def convert_file_to_txt(
         elif ext == '.pptx':
             html_content = convert_pptx_to_html(input_filename)
         elif ext == '.ppt':
             try:
-                text = convert_doc_to_text(input_filename)  # Reuse convert_doc_to_text which uses textract
-                html_content = text_to_html(text)
-            except HTTPException as e:
-                raise e
             except Exception as e:
-                logging.error(f"Erreur lors de la conversion de .ppt avec textract: {e}")
                 raise HTTPException(status_code=500, detail=f"Erreur lors de la conversion du fichier .ppt: {e}")
         elif ext == '.doc':
             text = convert_doc_to_text(input_filename)
@@ -808,18 +806,18 @@ async def convert_file_to_txt(
         # Nettoyage et extraction des images
         image_counter = [1]
         images_data = {}
-        logging.debug(f"DEBUG CONVERT_TO_TXT: HTML avant clean_html_content : {html_content[:500]}...")
         cleaned_html = await clean_html_content(html_content, image_counter, images_data)
-        logging.debug(f"DEBUG CONVERT_TO_TXT: HTML après clean_html_content : {cleaned_html}...")
-        logging.debug(f"DEBUG CONVERT_TO_TXT: images_data après clean_html_content : {images_data}")
         if ext == '.docx':
-            logging.debug(f"DEBUG CONVERT_TO_TXT (.docx): HTML après clean_html_content (complet) : {cleaned_html}") # Afficher le HTML complet
         # Vérification des commentaires IMG_X dans le HTML nettoyé
         cleaned_soup = BeautifulSoup(cleaned_html, 'html.parser')
         has_img_comments = any(re.match(r'IMG_\d+', str(comment)) for comment in cleaned_soup.find_all(string=lambda text: isinstance(text, Comment)))
-        logging.debug(f"DEBUG CONVERT_TO_TXT: Présence de commentaires IMG_X après nettoyage : {has_img_comments}")
         # Description des images pour le mode texte
         for image_key in images_data:
@@ -847,15 +845,15 @@ async def convert_file_to_txt(
             images_data[image_key]['description'] = description
         # Réinsertion des images avec descriptions
-        logging.debug(f"DEBUG CONVERT_TO_TXT: HTML avant reinsert_images : {cleaned_html[:500]}...")
-        logging.debug(f"DEBUG CONVERT_TO_TXT: images_data avant reinsert_images : {images_data}")
         final_html = reinsert_images(cleaned_html, images_data)
-        logging.debug(f"DEBUG CONVERT_TO_TXT: HTML après reinsert_images : {final_html[:500]}...")
         # Vérification des descriptions insérées
         soup_final = BeautifulSoup(final_html, 'html.parser')
         description_paragraphs = soup_final.find_all('p', class_='description')
-        logging.debug(f"DEBUG CONVERT_TO_TXT: Nombre de descriptions insérées : {len(description_paragraphs)}")
         for desc in description_paragraphs:
             logging.debug(f"Description insérée : {desc.get_text(strip=True)}")

         elif ext == '.pptx':
             html_content = convert_pptx_to_html(input_filename)
         elif ext == '.ppt':
+            input_format = get_pandoc_format(ext)
             try:
+                html_content = convert_with_pandoc(input_filename, input_format)
             except Exception as e:
+                logging.error(f"Erreur lors de la conversion de .ppt avec pypandoc: {e}")
                 raise HTTPException(status_code=500, detail=f"Erreur lors de la conversion du fichier .ppt: {e}")
         elif ext == '.doc':
             text = convert_doc_to_text(input_filename)
         # Nettoyage et extraction des images
         image_counter = [1]
         images_data = {}
+        logging.debug(f"DEBUG CONVERT_TO_txt: HTML avant clean_html_content : {html_content[:500]}...")
         cleaned_html = await clean_html_content(html_content, image_counter, images_data)
+        logging.debug(f"DEBUG CONVERT_TO_txt: HTML après clean_html_content : {cleaned_html}...")
+        logging.debug(f"DEBUG CONVERT_TO_txt: images_data après clean_html_content : {images_data}")
         if ext == '.docx':
+            logging.debug(f"DEBUG CONVERT_TO_txt (.docx): HTML après clean_html_content (complet) : {cleaned_html}") # Afficher le HTML complet
         # Vérification des commentaires IMG_X dans le HTML nettoyé
         cleaned_soup = BeautifulSoup(cleaned_html, 'html.parser')
         has_img_comments = any(re.match(r'IMG_\d+', str(comment)) for comment in cleaned_soup.find_all(string=lambda text: isinstance(text, Comment)))
+        logging.debug(f"DEBUG CONVERT_TO_txt: Présence de commentaires IMG_X après nettoyage : {has_img_comments}")
         # Description des images pour le mode texte
         for image_key in images_data:
             images_data[image_key]['description'] = description
         # Réinsertion des images avec descriptions
+        logging.debug(f"DEBUG CONVERT_TO_txt: HTML avant reinsert_images : {cleaned_html[:500]}...")
+        logging.debug(f"DEBUG CONVERT_TO_txt: images_data avant reinsert_images : {images_data}")
         final_html = reinsert_images(cleaned_html, images_data)
+        logging.debug(f"DEBUG CONVERT_TO_txt: HTML après reinsert_images : {final_html[:500]}...")
         # Vérification des descriptions insérées
         soup_final = BeautifulSoup(final_html, 'html.parser')
         description_paragraphs = soup_final.find_all('p', class_='description')
+        logging.debug(f"DEBUG CONVERT_TO_txt: Nombre de descriptions insérées : {len(description_paragraphs)}")
         for desc in description_paragraphs:
             logging.debug(f"Description insérée : {desc.get_text(strip=True)}")