accessibility

Sleeping

App Files Files Community

Bentham commited on Dec 19, 2024

Commit

4394122

verified ·

1 Parent(s): ca7514d

Update main.py

Browse files

Files changed (1) hide show

main.py +25 -5

main.py CHANGED Viewed

@@ -548,7 +548,7 @@ def reinsert_images(html_content: str, images_data: Dict[str, Dict[str, str]]) -
             if image_key in images_data:
                 img_tag = soup.new_tag('img')
                 img_tag['src'] = f"data:image/jpeg;base64,{images_data[image_key]['base64_image']}"
-                img_tag['alt'] = images_data[image_key]['description']
                 new_content = soup.new_tag('div')
                 new_content.append(img_tag)
@@ -559,19 +559,20 @@ def reinsert_images(html_content: str, images_data: Dict[str, Dict[str, str]]) -
                 p_tag.append(strong_tag)
                 p_tag.append(" : ")
-                y_markdown = images_data[image_key]['description']
                 y_html = markdown_to_html(y_markdown)
                 y_soup = BeautifulSoup(y_html, 'html.parser')
                 p_tag.append(y_soup)
                 new_content.append(p_tag)
                 comment.replace_with(new_content)
             else:
                 logging.error(f"Données pour {image_key} non trouvées.")
     return str(soup)
 def pdf_to_html(input_filename: str) -> str:
     soup = BeautifulSoup("<html><head></head><body></body></html>", 'html.parser')
     body = soup.body
@@ -770,6 +771,7 @@ def extract_text_with_image_markers(input_filename: str) -> Tuple[str, List[Tupl
             try:
                 page_data = json.loads(page_json)  # Parse le JSON en dict
                 blocks = page_data["blocks"]
             except json.JSONDecodeError as e:
                 logging.error(f"Erreur de décodage JSON sur la page {page_num}: {str(e)}")
                 continue  # Passe à la page suivante en cas d'erreur
@@ -778,12 +780,13 @@ def extract_text_with_image_markers(input_filename: str) -> Tuple[str, List[Tupl
                 if block['type'] == 0:  # Texte
                     for line in block.get('lines', []):
                         for span in line.get('spans', []):
-                            text += span.get('text', '')
                 elif block['type'] == 1:  # Image
                     # Insérer un marqueur unique pour l'image
                     img_num = len(images) + 1
                     marker = f"[IMG_{img_num}]"
-                    text += marker
                     # Extraire l'image
                     xref = block.get('xref')
                     if xref is not None:
@@ -791,11 +794,15 @@ def extract_text_with_image_markers(input_filename: str) -> Tuple[str, List[Tupl
                             base_image = doc.extract_image(xref)
                             image_bytes = base_image["image"]
                             images.append((img_num, image_bytes))
                         except Exception as e:
                             logging.error(f"Erreur lors de l'extraction de l'image xref={xref} sur la page {page_num} : {str(e)}")
     return text, images
 def extract_images_from_ppt(input_filename: str) -> List[Tuple[int, bytes]]:
     images = []
     if 'Presentation' not in globals():
@@ -857,6 +864,7 @@ async def convert_file_to_txt(
         # Extraction du texte et des images
         if ext == '.pdf':
             text, images = extract_text_with_image_markers(input_filename)
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
@@ -868,23 +876,27 @@ async def convert_file_to_txt(
                         text_content.append(shape.text)
             text = "\n".join(text_content)
             images = extract_images_from_ppt(input_filename)
         elif ext == '.ppt':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
             images = extract_images_from_ppt(input_filename)
         elif ext == '.doc':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
             # Pas d'extraction d'images simple pour .doc ici
             images = []
         else:
             # Autres formats pris en charge par pandoc (sans extraction d'image)
             pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
             with open(output_filename, "r", encoding="utf-8") as f:
                 text = f.read()
             images = []
         # Analyse des images et récupération des descriptions
         if images:
@@ -897,6 +909,7 @@ async def convert_file_to_txt(
                         prompt="Cette image est incluse dans un cours. Je voudrais que tu me donnes toutes les informations pertinentes, pour qu'on puisse comprendre ce qu'elle contient sans la voir. Ne commente pas les couleurs, les formes et la disposition. Ne commente pas le fait que tu décris l'image : fais en sorte que l'image puisse être naturellement remplacée par ta description. Si l'image ne contient aucune information, ne renvoie rien du tout."
                     )
                 ))
             descriptions = await asyncio.gather(*tasks, return_exceptions=True)
@@ -908,16 +921,22 @@ async def convert_file_to_txt(
                     image_descriptions[img_num] = desc
                 else:
                     image_descriptions[img_num] = "Description indisponible."
             # Remplacer les marqueurs par les descriptions
             for img_num, desc in image_descriptions.items():
                 marker = f"[IMG_{img_num}]"
                 description_text = f"Image {img_num}: {desc}"
                 text = text.replace(marker, description_text)
         # Écriture du texte dans le fichier de sortie
         with open(output_filename, "w", encoding="utf-8") as f:
             f.write(text)
         if not os.path.exists(output_filename):
             logging.error(f"Le fichier {output_filename} n'a pas été généré.")
@@ -936,3 +955,4 @@ async def convert_file_to_txt(
     except Exception as e:
         logging.error(f"Erreur interne lors de la conversion : {str(e)}")
         return JSONResponse(status_code=500, content={"message": f"Erreur interne : {str(e)}"})

             if image_key in images_data:
                 img_tag = soup.new_tag('img')
                 img_tag['src'] = f"data:image/jpeg;base64,{images_data[image_key]['base64_image']}"
+                img_tag['alt'] = images_data[image_key].get('description', 'Description indisponible.')
                 new_content = soup.new_tag('div')
                 new_content.append(img_tag)
                 p_tag.append(strong_tag)
                 p_tag.append(" : ")
+                y_markdown = images_data[image_key].get('description', '')
                 y_html = markdown_to_html(y_markdown)
                 y_soup = BeautifulSoup(y_html, 'html.parser')
                 p_tag.append(y_soup)
                 new_content.append(p_tag)
                 comment.replace_with(new_content)
+                logging.debug(f"Image {image_number} réinsérée avec description.")
             else:
                 logging.error(f"Données pour {image_key} non trouvées.")
     return str(soup)
 def pdf_to_html(input_filename: str) -> str:
     soup = BeautifulSoup("<html><head></head><body></body></html>", 'html.parser')
     body = soup.body
             try:
                 page_data = json.loads(page_json)  # Parse le JSON en dict
                 blocks = page_data["blocks"]
+                logging.debug(f"Page {page_num} blocs: {len(blocks)}")
             except json.JSONDecodeError as e:
                 logging.error(f"Erreur de décodage JSON sur la page {page_num}: {str(e)}")
                 continue  # Passe à la page suivante en cas d'erreur
                 if block['type'] == 0:  # Texte
                     for line in block.get('lines', []):
                         for span in line.get('spans', []):
+                            text += span.get('text', '') + ' '
+                        text += '\n'  # Saut de ligne après chaque ligne de texte
                 elif block['type'] == 1:  # Image
                     # Insérer un marqueur unique pour l'image
                     img_num = len(images) + 1
                     marker = f"[IMG_{img_num}]"
+                    text += marker + '\n'  # Saut de ligne après le marqueur d'image
                     # Extraire l'image
                     xref = block.get('xref')
                     if xref is not None:
                             base_image = doc.extract_image(xref)
                             image_bytes = base_image["image"]
                             images.append((img_num, image_bytes))
+                            logging.debug(f"Image {img_num} extraite de la page {page_num}.")
                         except Exception as e:
                             logging.error(f"Erreur lors de l'extraction de l'image xref={xref} sur la page {page_num} : {str(e)}")
+        logging.debug(f"Total text length: {len(text)} characters.")
+        logging.debug(f"Total images extracted: {len(images)}.")
     return text, images
 def extract_images_from_ppt(input_filename: str) -> List[Tuple[int, bytes]]:
     images = []
     if 'Presentation' not in globals():
         # Extraction du texte et des images
         if ext == '.pdf':
             text, images = extract_text_with_image_markers(input_filename)
+            logging.debug(f"Extraction PDF terminée. Texte extrait de {len(text)} caractères. {len(images)} images trouvées.")
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
                         text_content.append(shape.text)
             text = "\n".join(text_content)
             images = extract_images_from_ppt(input_filename)
+            logging.debug(f"Extraction PPTX terminée. Texte extrait de {len(text)} caractères. {len(images)} images trouvées.")
         elif ext == '.ppt':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
             images = extract_images_from_ppt(input_filename)
+            logging.debug(f"Extraction PPT terminée. Texte extrait de {len(text)} caractères. {len(images)} images trouvées.")
         elif ext == '.doc':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
             # Pas d'extraction d'images simple pour .doc ici
             images = []
+            logging.debug(f"Extraction DOC terminée. Texte extrait de {len(text)} caractères. Aucune image trouvée.")
         else:
             # Autres formats pris en charge par pandoc (sans extraction d'image)
             pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
             with open(output_filename, "r", encoding="utf-8") as f:
                 text = f.read()
             images = []
+            logging.debug(f"Conversion avec Pandoc terminée. Texte extrait de {len(text)} caractères. Aucune image trouvée.")
         # Analyse des images et récupération des descriptions
         if images:
                         prompt="Cette image est incluse dans un cours. Je voudrais que tu me donnes toutes les informations pertinentes, pour qu'on puisse comprendre ce qu'elle contient sans la voir. Ne commente pas les couleurs, les formes et la disposition. Ne commente pas le fait que tu décris l'image : fais en sorte que l'image puisse être naturellement remplacée par ta description. Si l'image ne contient aucune information, ne renvoie rien du tout."
                     )
                 ))
+            logging.debug(f"Lancement de {len(tasks)} tâches pour la description des images.")
             descriptions = await asyncio.gather(*tasks, return_exceptions=True)
                     image_descriptions[img_num] = desc
                 else:
                     image_descriptions[img_num] = "Description indisponible."
+            logging.debug(f"Descriptions des images terminées. {len(image_descriptions)} descriptions générées.")
             # Remplacer les marqueurs par les descriptions
             for img_num, desc in image_descriptions.items():
                 marker = f"[IMG_{img_num}]"
                 description_text = f"Image {img_num}: {desc}"
                 text = text.replace(marker, description_text)
+            logging.debug("Remplacement des marqueurs d'images par les descriptions terminé.")
+        else:
+            logging.debug("Aucune image trouvée. Aucun remplacement de marqueur effectué.")
         # Écriture du texte dans le fichier de sortie
         with open(output_filename, "w", encoding="utf-8") as f:
             f.write(text)
+        logging.debug(f"Écriture du fichier texte terminée : {output_filename}")
         if not os.path.exists(output_filename):
             logging.error(f"Le fichier {output_filename} n'a pas été généré.")
     except Exception as e:
         logging.error(f"Erreur interne lors de la conversion : {str(e)}")
         return JSONResponse(status_code=500, content={"message": f"Erreur interne : {str(e)}"})