Spaces:

brightlembo
/

SY23

Sleeping

App Files Files Community

brightlembo commited on Jan 17

Commit

c3a1adc

verified ·

1 Parent(s): e70c7c9

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -32

app.py CHANGED Viewed

@@ -10,33 +10,44 @@ from PIL import Image
 import os
 import logging
 import tempfile
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 class MultimodalProcessor:
     def __init__(self):
         self.load_models()
-        self.temp_dir = tempfile.mkdtemp()
     def load_models(self):
         """Charge les modèles"""
         try:
             logger.info("Chargement des modèles...")
-            # BLIP pour l'analyse d'image
             self.blip_processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
             self.blip_model = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-base")
-            # Whisper pour la transcription audio
             self.audio_transcriber = pipeline("automatic-speech-recognition",
                                            model="openai/whisper-base")
-            # ModelScope pour la génération vidéo
             self.video_pipeline = ms_pipeline(
                 'text-to-video-synthesis',
                 model='damo/text-to-video-synthesis'
             )
             logger.info("Modèles chargés avec succès")
         except Exception as e:
             logger.error(f"Erreur lors du chargement des modèles: {str(e)}")
@@ -44,16 +55,14 @@ class MultimodalProcessor:
     def analyze_image(self, image):
         """Analyse une image avec BLIP"""
         try:
-            if image is None:
-                return ""
             questions = [
                 "What is in the picture?",
                 "What are the main colors?",
                 "What is the setting or background?"
             ]
             responses = {}
             for question in questions:
                 inputs = self.blip_processor(images=image, text=question, return_tensors="pt")
@@ -66,7 +75,6 @@ class MultimodalProcessor:
                 f"The main colors are {responses['What are the main colors?']}. "
                 f"The setting is {responses['What is the setting or background?']}."
             )
             return description
         except Exception as e:
             logger.error(f"Erreur lors de l'analyse de l'image: {str(e)}")
@@ -74,9 +82,9 @@ class MultimodalProcessor:
     def transcribe_audio(self, audio_path):
         """Transcrit un fichier audio avec Whisper"""
         try:
-            if audio_path is None:
-                return ""
             return self.audio_transcriber(audio_path)["text"]
         except Exception as e:
             logger.error(f"Erreur lors de la transcription audio: {str(e)}")
@@ -84,19 +92,24 @@ class MultimodalProcessor:
     def generate_video(self, prompt):
         """Génère une vidéo avec ModelScope"""
         try:
-            if not prompt:
-                return None
-            output_path = os.path.join(self.temp_dir, "output.mp4")
             result = self.video_pipeline({
                 'text': prompt,
                 'output_path': output_path
             })
-            if os.path.exists(output_path):
-                return output_path
-            raise Exception("La vidéo n'a pas été générée correctement")
         except Exception as e:
             logger.error(f"Erreur lors de la génération de vidéo: {str(e)}")
@@ -107,36 +120,30 @@ class MultimodalProcessor:
         try:
             combined_parts = []
-            # Analyse de l'image si présente
             if image is not None:
                 image_desc = self.analyze_image(image)
                 if image_desc:
                     combined_parts.append(f"Scene: {image_desc}")
-            # Transcription audio si présent
             if audio is not None:
                 audio_text = self.transcribe_audio(audio)
                 if audio_text:
                     combined_parts.append(f"Audio narration: {audio_text}")
-            # Ajout du texte si présent
             if text:
                 combined_parts.append(f"Additional context: {text}")
-            # Création du prompt final
-            if combined_parts:
-                final_prompt = " ".join(combined_parts)
-            else:
-                final_prompt = "Empty scene with neutral background"
-            # Génération de la vidéo
             output_video = self.generate_video(final_prompt)
             return output_video, final_prompt
         except Exception as e:
             logger.error(f"Erreur lors du traitement des entrées: {str(e)}")
             return None, "Une erreur est survenue lors du traitement des entrées."
 def create_interface():
     """Crée l'interface Gradio"""
@@ -163,7 +170,6 @@ def create_interface():
         4. Générer une vidéo basée sur la description combinée
         """
     )
     return interface
 if __name__ == "__main__":

 import os
 import logging
 import tempfile
+import shutil
+import atexit
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
+class TempFileManager:
+    def __init__(self):
+        self.temp_dir = tempfile.mkdtemp(prefix='multimodal_app_')
+        atexit.register(self.cleanup)
+    def get_path(self, filename):
+        return os.path.join(self.temp_dir, filename)
+    def cleanup(self):
+        try:
+            if os.path.exists(self.temp_dir):
+                shutil.rmtree(self.temp_dir, ignore_errors=True)
+        except Exception as e:
+            logger.error(f"Erreur lors du nettoyage des fichiers temporaires: {str(e)}")
 class MultimodalProcessor:
     def __init__(self):
+        self.temp_manager = TempFileManager()
         self.load_models()
     def load_models(self):
         """Charge les modèles"""
         try:
             logger.info("Chargement des modèles...")
             self.blip_processor = BlipProcessor.from_pretrained("Salesforce/blip-vqa-base")
             self.blip_model = BlipForQuestionAnswering.from_pretrained("Salesforce/blip-vqa-base")
             self.audio_transcriber = pipeline("automatic-speech-recognition",
                                            model="openai/whisper-base")
             self.video_pipeline = ms_pipeline(
                 'text-to-video-synthesis',
                 model='damo/text-to-video-synthesis'
             )
             logger.info("Modèles chargés avec succès")
         except Exception as e:
             logger.error(f"Erreur lors du chargement des modèles: {str(e)}")
     def analyze_image(self, image):
         """Analyse une image avec BLIP"""
+        if image is None:
+            return ""
         try:
             questions = [
                 "What is in the picture?",
                 "What are the main colors?",
                 "What is the setting or background?"
             ]
             responses = {}
             for question in questions:
                 inputs = self.blip_processor(images=image, text=question, return_tensors="pt")
                 f"The main colors are {responses['What are the main colors?']}. "
                 f"The setting is {responses['What is the setting or background?']}."
             )
             return description
         except Exception as e:
             logger.error(f"Erreur lors de l'analyse de l'image: {str(e)}")
     def transcribe_audio(self, audio_path):
         """Transcrit un fichier audio avec Whisper"""
+        if audio_path is None:
+            return ""
         try:
             return self.audio_transcriber(audio_path)["text"]
         except Exception as e:
             logger.error(f"Erreur lors de la transcription audio: {str(e)}")
     def generate_video(self, prompt):
         """Génère une vidéo avec ModelScope"""
+        if not prompt:
+            return None
         try:
+            output_path = self.temp_manager.get_path("output.mp4")
             result = self.video_pipeline({
                 'text': prompt,
                 'output_path': output_path
             })
+            if not os.path.exists(output_path):
+                raise Exception("La vidéo n'a pas été générée correctement")
+            # Copie la vidéo vers un emplacement permanent si nécessaire
+            permanent_path = f"outputs/video_{hash(prompt)}.mp4"
+            os.makedirs(os.path.dirname(permanent_path), exist_ok=True)
+            shutil.copy2(output_path, permanent_path)
+            return permanent_path
         except Exception as e:
             logger.error(f"Erreur lors de la génération de vidéo: {str(e)}")
         try:
             combined_parts = []
             if image is not None:
                 image_desc = self.analyze_image(image)
                 if image_desc:
                     combined_parts.append(f"Scene: {image_desc}")
             if audio is not None:
                 audio_text = self.transcribe_audio(audio)
                 if audio_text:
                     combined_parts.append(f"Audio narration: {audio_text}")
             if text:
                 combined_parts.append(f"Additional context: {text}")
+            final_prompt = " ".join(combined_parts) if combined_parts else "Empty scene with neutral background"
             output_video = self.generate_video(final_prompt)
             return output_video, final_prompt
         except Exception as e:
             logger.error(f"Erreur lors du traitement des entrées: {str(e)}")
             return None, "Une erreur est survenue lors du traitement des entrées."
+        finally:
+            # Nettoyage explicite des fichiers temporaires après chaque traitement
+            self.temp_manager.cleanup()
 def create_interface():
     """Crée l'interface Gradio"""
         4. Générer une vidéo basée sur la description combinée
         """
     )
     return interface
 if __name__ == "__main__":