convert_test

Sleeping

App Files Files Community

Bentham commited on Dec 19, 2024

Commit

c08b912

verified ·

1 Parent(s): 935a92b

tableaux

Browse files

Files changed (1) hide show

main.py +31 -19

main.py CHANGED Viewed

@@ -827,16 +827,17 @@ async def convert_file_to_txt(
         text = ""
         images = []
-        image_hash_map = {}  # Dictionnaire pour mapper les hashes aux descriptions
-        seen_hashes = set()   # Ensemble pour suivre les hashes déjà traités
-        # MODIFICATIONS START: Extraction du texte et des images
         if ext == '.pdf':
             with fitz.open(input_filename) as doc:
                 for page in doc:
                     text += page.get_text()
-            # Extraire les images du PDF
             images = extract_images_from_pdf(input_filename)
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
@@ -847,34 +848,45 @@ async def convert_file_to_txt(
                     if hasattr(shape, "text"):
                         text_content.append(shape.text)
             text = "\n".join(text_content)
-            images = extract_images_from_ppt(input_filename)
-        elif ext == '.ppt':
-            if 'textract' not in globals():
-                raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
-            text = textract.process(input_filename).decode('utf-8', errors='replace')
-            images = extract_images_from_ppt(input_filename)
         elif ext == '.doc':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
-            # Pas d'extraction d'images simple pour .doc ici
-            images = []
         else:
-            # Autres formats pris en charge par pandoc (sans extraction d'image)
             pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
             with open(output_filename, "r", encoding="utf-8") as f:
                 text = f.read()
-            images = []
         # Analyse des images avec déduplication basée sur le hash
         if images:
             image_descriptions = []
             for i, img_bytes in enumerate(images, start=1):
-                # Calculer le hash de l'image
                 img_hash = hashlib.sha256(img_bytes).hexdigest()
                 if img_hash in seen_hashes:
                     logging.debug(f"Image {i} est un doublon (hash: {img_hash}).")
-                    description = image_hash_map[img_hash]  # Réutiliser la description existante
                 else:
                     seen_hashes.add(img_hash)
                     base64_image = base64.b64encode(img_bytes).decode('utf-8')
@@ -882,15 +894,14 @@ async def convert_file_to_txt(
                         base64_image,
                         prompt="Cette image est incluse dans un cours. Je voudrais que tu me donnes les informations pertinentes qu'elle contient. Ne commente pas les figures, les couleurs ni les formes.\n- Si l'image ne contient que des textes, il faut simplement les retranscrire.\n- Si l'image contient des schémas, il faut exposer ce qu'ils signifient, et les reformuler avec des phrases complètes, claires et compréhensibles, comme si tu le commentais pendant un cours.\nSi l'image ne contient aucune information textuelle ou schématique, renvoie simplement \"no-text\"."
                     )
-                    image_hash_map[img_hash] = description  # Stocker la description pour les doublons
                 image_descriptions.append((i, description))
-            # On ajoute les descriptions à la fin du texte
             text += "\n\n--- Voici l'ensemble des images utilisées dans ce document ---\n"
             for num, desc in image_descriptions:
                 if desc != "no-text":
                     text += f"\nImage {num} : {desc}\n"
-        # MODIFICATIONS END
         with open(output_filename, "w", encoding="utf-8") as f:
             f.write(text)
@@ -912,3 +923,4 @@ async def convert_file_to_txt(
     except Exception as e:
         logging.error(f"Erreur interne lors de la conversion : {str(e)}")
         return JSONResponse(status_code=500, content={"message": f"Erreur interne : {str(e)}"})

         text = ""
         images = []
+        tables = []
+        image_hash_map = {}
+        seen_hashes = set()
+        # Extraction du texte, des images et des tableaux
         if ext == '.pdf':
             with fitz.open(input_filename) as doc:
                 for page in doc:
                     text += page.get_text()
             images = extract_images_from_pdf(input_filename)
+            tables = extract_tables_from_pdf(input_filename)
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
                     if hasattr(shape, "text"):
                         text_content.append(shape.text)
             text = "\n".join(text_content)
+            images = extract_images_from_pptx(input_filename)
+            tables = extract_tables_from_pptx(input_filename)
+        elif ext == '.docx':
+            if 'DocxDocument' not in globals():
+                raise HTTPException(status_code=500, detail="La librairie python-docx n'est pas installée.")
+            tables = extract_tables_from_docx(input_filename)
+            doc = DocxDocument(input_filename)
+            text_content = []
+            for para in doc.paragraphs:
+                text_content.append(para.text)
+            text = "\n".join(text_content)
+            # Extraction des images si nécessaire
         elif ext == '.doc':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
+            images = extract_images_from_ppt(input_filename)
+            tables = []  # Extraction des tables pour .doc peut nécessiter une autre approche
         else:
+            # Autres formats pris en charge par pandoc
             pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
             with open(output_filename, "r", encoding="utf-8") as f:
                 text = f.read()
+            tables = []  # Extraction des tables si possible
+        # Ajout des tables au texte
+        if tables:
+            text += "\n\n--- Tables extraites ---\n"
+            for table_text in tables:
+                text += table_text + "\n"
         # Analyse des images avec déduplication basée sur le hash
         if images:
             image_descriptions = []
             for i, img_bytes in enumerate(images, start=1):
                 img_hash = hashlib.sha256(img_bytes).hexdigest()
                 if img_hash in seen_hashes:
                     logging.debug(f"Image {i} est un doublon (hash: {img_hash}).")
+                    description = image_hash_map[img_hash]
                 else:
                     seen_hashes.add(img_hash)
                     base64_image = base64.b64encode(img_bytes).decode('utf-8')
                         base64_image,
                         prompt="Cette image est incluse dans un cours. Je voudrais que tu me donnes les informations pertinentes qu'elle contient. Ne commente pas les figures, les couleurs ni les formes.\n- Si l'image ne contient que des textes, il faut simplement les retranscrire.\n- Si l'image contient des schémas, il faut exposer ce qu'ils signifient, et les reformuler avec des phrases complètes, claires et compréhensibles, comme si tu le commentais pendant un cours.\nSi l'image ne contient aucune information textuelle ou schématique, renvoie simplement \"no-text\"."
                     )
+                    image_hash_map[img_hash] = description
                 image_descriptions.append((i, description))
+            # Ajout des descriptions des images au texte
             text += "\n\n--- Voici l'ensemble des images utilisées dans ce document ---\n"
             for num, desc in image_descriptions:
                 if desc != "no-text":
                     text += f"\nImage {num} : {desc}\n"
         with open(output_filename, "w", encoding="utf-8") as f:
             f.write(text)
     except Exception as e:
         logging.error(f"Erreur interne lors de la conversion : {str(e)}")
         return JSONResponse(status_code=500, content={"message": f"Erreur interne : {str(e)}"})