accessibility

Sleeping

App Files Files Community

Bentham commited on Dec 15, 2024

Commit

1aaccdf

verified ·

1 Parent(s): d26091d

Ajout de ppt et pptx

Browse files

Files changed (1) hide show

main.py +46 -15

main.py CHANGED Viewed

@@ -16,7 +16,6 @@ import asyncio  # Added for asynchronous functionality
 from openai import AsyncOpenAI  # Import AsyncOpenAI
 from readability import Document
 import instructor  # Import instructor for patching
 from fastapi import FastAPI, File, UploadFile, HTTPException, BackgroundTasks
@@ -25,6 +24,19 @@ import pypandoc
 import fitz  # PyMuPDF
 from bs4 import BeautifulSoup, Comment
 # Initialize the logger
 logging.basicConfig(level=logging.DEBUG)
@@ -57,7 +69,9 @@ FORMAT_MAP = {
     '.commonmark': 'commonmark',
     '.cm': 'commonmark',
     '.wiki': 'mediawiki',
-    '.opml': 'opml'
 }
 def get_pandoc_format(extension: str) -> str:
@@ -848,10 +862,11 @@ async def convert_file_to_txt(
         base_filename, ext = os.path.splitext(original_filename)
         ext = ext.lower()
-        # Extensions autorisées pour la conversion
         allowed_extensions = [
             '.odt', '.pdf', '.docx', '.html', '.htm', '.md', '.txt', '.rtf', '.epub',
-            '.tex', '.xml', '.org', '.commonmark', '.cm', '.wiki', '.opml'
         ]
         if ext not in allowed_extensions:
@@ -878,8 +893,9 @@ async def convert_file_to_txt(
         unique_id = uuid.uuid4().hex
         output_filename = os.path.join(tempfile.gettempdir(), f"{base_filename}_{unique_id}.txt")
-        # Conversion de PDF en texte avec PyMuPDF
         if ext == '.pdf':
             text = ""
             with fitz.open(input_filename) as doc:
                 for page in doc:
@@ -888,16 +904,32 @@ async def convert_file_to_txt(
                 f.write(text)
             logging.debug(f"Conversion PDF réussie avec PyMuPDF : {output_filename}")
-        # Conversion des autres formats en texte avec Pandoc
-        else:
-            # Pour Markdown, assurez-vous que le contenu est nettoyé si nécessaire
-            if ext in ['.md', '.markdown']:
-                with open(input_filename, 'r', encoding='utf-8') as f:
-                    content = f.read()
-                # Optionnel : appliquer des nettoyages spécifiques au Markdown
-                with open(input_filename, 'w', encoding='utf-8') as f:
-                    f.write(content)  # Ici, aucun nettoyage spécifique
             output = pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
             logging.debug(f"Conversion réussie avec Pandoc : {output_filename}")
@@ -907,7 +939,6 @@ async def convert_file_to_txt(
             raise HTTPException(status_code=500, detail="Erreur lors de la conversion.")
         # Ajouter les fichiers temporaires à la tâche d'arrière-plan pour suppression après l'envoi de la réponse
-        # Inclure le fichier nettoyé s'il existe
         temp_files_to_delete = [input_filename, output_filename]
         if ext in ['.html', '.htm']:
             temp_files_to_delete.append(cleaned_input_filename)

 from openai import AsyncOpenAI  # Import AsyncOpenAI
 from readability import Document
 import instructor  # Import instructor for patching
 from fastapi import FastAPI, File, UploadFile, HTTPException, BackgroundTasks
 import fitz  # PyMuPDF
 from bs4 import BeautifulSoup, Comment
+# Ajout des bibliothèques pour PPTX et PPT
+try:
+    from pptx import Presentation
+except ImportError:
+    # Si python-pptx n'est pas installé, vous pouvez l'installer via pip install python-pptx
+    pass
+try:
+    import textract
+except ImportError:
+    # Si textract n'est pas installé, vous pouvez l'installer via pip install textract
+    pass
 # Initialize the logger
 logging.basicConfig(level=logging.DEBUG)
     '.commonmark': 'commonmark',
     '.cm': 'commonmark',
     '.wiki': 'mediawiki',
+    '.opml': 'opml',
+    # On n'ajoute pas ici ppt et pptx, car pandoc ne gère pas directement ces formats.
+    # On les traitera séparément.
 }
 def get_pandoc_format(extension: str) -> str:
         base_filename, ext = os.path.splitext(original_filename)
         ext = ext.lower()
+        # On ajoute .ppt et .pptx aux extensions autorisées
         allowed_extensions = [
             '.odt', '.pdf', '.docx', '.html', '.htm', '.md', '.txt', '.rtf', '.epub',
+            '.tex', '.xml', '.org', '.commonmark', '.cm', '.wiki', '.opml',
+            '.ppt', '.pptx'  # Ajout de PPT et PPTX
         ]
         if ext not in allowed_extensions:
         unique_id = uuid.uuid4().hex
         output_filename = os.path.join(tempfile.gettempdir(), f"{base_filename}_{unique_id}.txt")
+        # Conversion des différents formats
         if ext == '.pdf':
+            # Conversion PDF en texte avec PyMuPDF
             text = ""
             with fitz.open(input_filename) as doc:
                 for page in doc:
                 f.write(text)
             logging.debug(f"Conversion PDF réussie avec PyMuPDF : {output_filename}")
+        elif ext == '.pptx':
+            # Conversion PPTX en texte avec python-pptx
+            if 'Presentation' not in globals():
+                raise HTTPException(status_code=500, detail="La librairie python-pptx n'est pas installée.")
+            prs = Presentation(input_filename)
+            text_content = []
+            for slide in prs.slides:
+                for shape in slide.shapes:
+                    if hasattr(shape, "text"):
+                        text_content.append(shape.text)
+            text = "\n".join(text_content)
+            with open(output_filename, "w", encoding="utf-8") as f:
+                f.write(text)
+            logging.debug(f"Conversion PPTX réussie avec python-pptx : {output_filename}")
+        elif ext == '.ppt':
+            # Conversion PPT en texte avec textract (nécessite les dépendances de textract)
+            if 'textract' not in globals():
+                raise HTTPException(status_code=500, detail="La librairie textract n'est pas installée.")
+            text = textract.process(input_filename).decode('utf-8', errors='replace')
+            with open(output_filename, "w", encoding="utf-8") as f:
+                f.write(text)
+            logging.debug(f"Conversion PPT réussie avec textract : {output_filename}")
+        else:
+            # Conversion des autres formats en texte avec Pandoc
             output = pypandoc.convert_file(input_filename, 'plain', outputfile=output_filename)
             logging.debug(f"Conversion réussie avec Pandoc : {output_filename}")
             raise HTTPException(status_code=500, detail="Erreur lors de la conversion.")
         # Ajouter les fichiers temporaires à la tâche d'arrière-plan pour suppression après l'envoi de la réponse
         temp_files_to_delete = [input_filename, output_filename]
         if ext in ['.html', '.htm']:
             temp_files_to_delete.append(cleaned_input_filename)