Spaces:

ferno22
/

demo

Sleeping

App Files Files Community

Antonio commited on May 18, 2024

Commit

adad62e

1 Parent(s): 374f948

Change

Browse files

Files changed (1) hide show

app.py +6 -4

app.py CHANGED Viewed

@@ -25,6 +25,8 @@ def get_emotion_from_filename(filename):
 def separate_video_audio(file_path):
     output_dir = './temp/'
     video_path = os.path.join(output_dir, os.path.basename(file_path).replace('.mp4', '_video.mp4'))
     audio_path = os.path.join(output_dir, os.path.basename(file_path).replace('.mp4', '_audio.wav'))
@@ -81,7 +83,7 @@ def video_label_to_emotion(label):
 def predict_video(file_path, video_model, image_processor):
     video = process_video(file_path)
     inputs = image_processor(list(video), return_tensors="pt")
-    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     inputs = inputs.to(device)
     with torch.no_grad():
@@ -100,7 +102,7 @@ def audio_label_to_emotion(label):
 def preprocess_and_predict_audio(file_path, model, processor):
     audio_array, _ = librosa.load(file_path, sr=16000)
     inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt", padding=True, max_length=75275)
-    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     model = model.to(device)
     inputs = {k: v.to(device) for k, v in inputs.items()}
@@ -182,13 +184,13 @@ decision_frameworks = {
 def predict(video_file, video_model_name, audio_model_name, framework_name):
     image_processor = VivitImageProcessor.from_pretrained("google/vivit-b-16x2-kinetics400")
-    video_model = torch.load('./' + video_model_name)
     model_id = "facebook/wav2vec2-large"
     config = AutoConfig.from_pretrained(model_id, num_labels=6)
     audio_processor = AutoFeatureExtractor.from_pretrained(model_id)
     audio_model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id, config=config)
-    audio_model.load_state_dict(torch.load('./' + audio_model_name))
     audio_model.eval()
     delete_directory_path = "./temp/"

 def separate_video_audio(file_path):
     output_dir = './temp/'
+    if not os.path.exists(output_dir):
+        os.makedirs(output_dir)
     video_path = os.path.join(output_dir, os.path.basename(file_path).replace('.mp4', '_video.mp4'))
     audio_path = os.path.join(output_dir, os.path.basename(file_path).replace('.mp4', '_audio.wav'))
 def predict_video(file_path, video_model, image_processor):
     video = process_video(file_path)
     inputs = image_processor(list(video), return_tensors="pt")
+    device = torch.device("cpu")
     inputs = inputs.to(device)
     with torch.no_grad():
 def preprocess_and_predict_audio(file_path, model, processor):
     audio_array, _ = librosa.load(file_path, sr=16000)
     inputs = processor(audio_array, sampling_rate=16000, return_tensors="pt", padding=True, max_length=75275)
+    device = torch.device("cpu")
     model = model.to(device)
     inputs = {k: v.to(device) for k, v in inputs.items()}
 def predict(video_file, video_model_name, audio_model_name, framework_name):
     image_processor = VivitImageProcessor.from_pretrained("google/vivit-b-16x2-kinetics400")
+    video_model = torch.load('./' + video_model_name, map_location=torch.device('cpu'))
     model_id = "facebook/wav2vec2-large"
     config = AutoConfig.from_pretrained(model_id, num_labels=6)
     audio_processor = AutoFeatureExtractor.from_pretrained(model_id)
     audio_model = Wav2Vec2ForSequenceClassification.from_pretrained(model_id, config=config)
+    audio_model.load_state_dict(torch.load('./' + audio_model_name, map_location=torch.device('cpu')))
     audio_model.eval()
     delete_directory_path = "./temp/"