convert_test

Sleeping

App Files Files Community

Bentham commited on Dec 19, 2024

Commit

b3c129f

verified ·

1 Parent(s): 4fd8408

revert etat fonctionnel

Browse files

Files changed (1) hide show

main.py +20 -71

main.py CHANGED Viewed

@@ -13,11 +13,6 @@ import shutil
 import json
 import asyncio
 import hashlib
-import camelot
-from pptx import Presentation
-from pptx.enum.shapes import MSO_SHAPE_TYPE
-from docx import Document as DocxDocument
 from openai import AsyncOpenAI
 from readability import Document
@@ -726,40 +721,6 @@ def delete_temp_files(file_paths: list):
 # MODIFICATIONS START
 import hashlib
-def extract_tables_from_docx(input_filename: str) -> List[str]:
-    doc = DocxDocument(input_filename)
-    table_texts = []
-    for table in doc.tables:
-        for row in table.rows:
-            row_text = "\t".join(cell.text.strip() for cell in row.cells)
-            table_texts.append(row_text)
-        table_texts.append("")  # Ajoute une ligne vide entre les tables
-    return table_texts
-def extract_tables_from_pptx(input_filename: str) -> List[str]:
-    prs = Presentation(input_filename)
-    table_texts = []
-    for slide in prs.slides:
-        for shape in slide.shapes:
-            if shape.shape_type == MSO_SHAPE_TYPE.TABLE:
-                table = shape.table
-                for row in table.rows:
-                    row_text = "\t".join(cell.text.strip() for cell in row.cells)
-                    table_texts.append(row_text)
-                table_texts.append("")  # Ligne vide entre les tables
-    return table_texts
-def extract_tables_from_pdf(input_filename: str) -> List[str]:
-    tables = camelot.read_pdf(input_filename, pages='all', flavor='stream')
-    table_texts = []
-    for table in tables:
-        df = table.df
-        for _, row in df.iterrows():
-            row_text = "\t".join(cell.strip() for cell in row)
-            table_texts.append(row_text)
-        table_texts.append("")  # Ligne vide entre les tables
-    return table_texts
 def extract_images_from_pdf(input_filename: str) -> List[bytes]:
     images = []
     hashes = set()  # Pour stocker les hashes des images uniques
@@ -866,17 +827,16 @@ async def convert_file_to_txt(
         text = ""
         images = []
-        tables = []
-        image_hash_map = {}
-        seen_hashes = set()
-        # Extraction du texte, des images et des tableaux
         if ext == '.pdf':
             with fitz.open(input_filename) as doc:
                 for page in doc:
                     text += page.get_text()
             images = extract_images_from_pdf(input_filename)
-            tables = extract_tables_from_pdf(input_filename)
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
@@ -887,45 +847,34 @@ async def convert_file_to_txt(
                     if hasattr(shape, "text"):
                         text_content.append(shape.text)
             text = "\n".join(text_content)
-            images = extract_images_from_pptx(input_filename)
-            tables = extract_tables_from_pptx(input_filename)
-        elif ext == '.docx':
-            if 'DocxDocument' not in globals():
-                raise HTTPException(status_code=500, detail="La librairie python-docx n'est pas installée.")
-            tables = extract_tables_from_docx(input_filename)
-            doc = DocxDocument(input_filename)
-            text_content = []
-            for para in doc.paragraphs:
-                text_content.append(para.text)
-            text = "\n".join(text_content)
-            # Extraction des images si nécessaire
-        elif ext == '.doc':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
             images = extract_images_from_ppt(input_filename)
-            tables = []  # Extraction des tables pour .doc peut nécessiter une autre approche
         else:
-            # Autres formats pris en charge par pandoc
             pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
             with open(output_filename, "r", encoding="utf-8") as f:
                 text = f.read()
-            tables = []  # Extraction des tables si possible
-        # Ajout des tables au texte
-        if tables:
-            text += "\n\n--- Tables extraites ---\n"
-            for table_text in tables:
-                text += table_text + "\n"
         # Analyse des images avec déduplication basée sur le hash
         if images:
             image_descriptions = []
             for i, img_bytes in enumerate(images, start=1):
                 img_hash = hashlib.sha256(img_bytes).hexdigest()
                 if img_hash in seen_hashes:
                     logging.debug(f"Image {i} est un doublon (hash: {img_hash}).")
-                    description = image_hash_map[img_hash]
                 else:
                     seen_hashes.add(img_hash)
                     base64_image = base64.b64encode(img_bytes).decode('utf-8')
@@ -933,14 +882,15 @@ async def convert_file_to_txt(
                         base64_image,
                         prompt="Cette image est incluse dans un cours. Je voudrais que tu me donnes les informations pertinentes qu'elle contient. Ne commente pas les figures, les couleurs ni les formes.\n- Si l'image ne contient que des textes, il faut simplement les retranscrire.\n- Si l'image contient des schémas, il faut exposer ce qu'ils signifient, et les reformuler avec des phrases complètes, claires et compréhensibles, comme si tu le commentais pendant un cours.\nSi l'image ne contient aucune information textuelle ou schématique, renvoie simplement \"no-text\"."
                     )
-                    image_hash_map[img_hash] = description
                 image_descriptions.append((i, description))
-            # Ajout des descriptions des images au texte
             text += "\n\n--- Voici l'ensemble des images utilisées dans ce document ---\n"
             for num, desc in image_descriptions:
                 if desc != "no-text":
                     text += f"\nImage {num} : {desc}\n"
         with open(output_filename, "w", encoding="utf-8") as f:
             f.write(text)
@@ -961,5 +911,4 @@ async def convert_file_to_txt(
         return JSONResponse(status_code=http_exc.status_code, content={"message": http_exc.detail})
     except Exception as e:
         logging.error(f"Erreur interne lors de la conversion : {str(e)}")
-        return JSONResponse(status_code=500, content={"message": f"Erreur interne : {str(e)}"})

 import json
 import asyncio
 import hashlib
 from openai import AsyncOpenAI
 from readability import Document
 # MODIFICATIONS START
 import hashlib
 def extract_images_from_pdf(input_filename: str) -> List[bytes]:
     images = []
     hashes = set()  # Pour stocker les hashes des images uniques
         text = ""
         images = []
+        image_hash_map = {}  # Dictionnaire pour mapper les hashes aux descriptions
+        seen_hashes = set()   # Ensemble pour suivre les hashes déjà traités
+        # MODIFICATIONS START: Extraction du texte et des images
         if ext == '.pdf':
             with fitz.open(input_filename) as doc:
                 for page in doc:
                     text += page.get_text()
+            # Extraire les images du PDF
             images = extract_images_from_pdf(input_filename)
         elif ext == '.pptx':
             if 'Presentation' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
                     if hasattr(shape, "text"):
                         text_content.append(shape.text)
             text = "\n".join(text_content)
+            images = extract_images_from_ppt(input_filename)
+        elif ext == '.ppt':
             if 'textract' not in globals():
                 raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
             text = textract.process(input_filename).decode('utf-8', errors='replace')
             images = extract_images_from_ppt(input_filename)
+        elif ext == '.doc':
+            if 'textract' not in globals():
+                raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
+            text = textract.process(input_filename).decode('utf-8', errors='replace')
+            # Pas d'extraction d'images simple pour .doc ici
+            images = []
         else:
+            # Autres formats pris en charge par pandoc (sans extraction d'image)
             pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
             with open(output_filename, "r", encoding="utf-8") as f:
                 text = f.read()
+            images = []
         # Analyse des images avec déduplication basée sur le hash
         if images:
             image_descriptions = []
             for i, img_bytes in enumerate(images, start=1):
+                # Calculer le hash de l'image
                 img_hash = hashlib.sha256(img_bytes).hexdigest()
                 if img_hash in seen_hashes:
                     logging.debug(f"Image {i} est un doublon (hash: {img_hash}).")
+                    description = image_hash_map[img_hash]  # Réutiliser la description existante
                 else:
                     seen_hashes.add(img_hash)
                     base64_image = base64.b64encode(img_bytes).decode('utf-8')
                         base64_image,
                         prompt="Cette image est incluse dans un cours. Je voudrais que tu me donnes les informations pertinentes qu'elle contient. Ne commente pas les figures, les couleurs ni les formes.\n- Si l'image ne contient que des textes, il faut simplement les retranscrire.\n- Si l'image contient des schémas, il faut exposer ce qu'ils signifient, et les reformuler avec des phrases complètes, claires et compréhensibles, comme si tu le commentais pendant un cours.\nSi l'image ne contient aucune information textuelle ou schématique, renvoie simplement \"no-text\"."
                     )
+                    image_hash_map[img_hash] = description  # Stocker la description pour les doublons
                 image_descriptions.append((i, description))
+            # On ajoute les descriptions à la fin du texte
             text += "\n\n--- Voici l'ensemble des images utilisées dans ce document ---\n"
             for num, desc in image_descriptions:
                 if desc != "no-text":
                     text += f"\nImage {num} : {desc}\n"
+        # MODIFICATIONS END
         with open(output_filename, "w", encoding="utf-8") as f:
             f.write(text)
         return JSONResponse(status_code=http_exc.status_code, content={"message": http_exc.detail})
     except Exception as e:
         logging.error(f"Erreur interne lors de la conversion : {str(e)}")
+        return JSONResponse(status_code=500, content={"message": f"Erreur interne : {str(e)}"})