Spaces:

mshukor
/

eP-ALM

Runtime error

App Files Files Community

mshukor commited on Jul 14, 2023

Commit

02eb18e

1 Parent(s): ce7469b

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -5

app.py CHANGED Viewed

@@ -242,27 +242,27 @@ def inference(image, audio, video, task_type, instruction):
     if task_type == 'Image Captioning':
         text = ['']
         text_input = tokenizer(text, padding='longest', return_tensors="pt").to(device)
-        model = model_caption.clone()
     elif task_type == 'Video Captioning':
         text = ['']
         text_input = tokenizer(text, padding='longest', return_tensors="pt").to(device)
         model_caption = model_caption.load_state_dict(state_dict_video_caption,strict=False)
-        model = model_caption.clone()
     elif task_type == 'Audio Captioning':
         text = ['']
         text_input = tokenizer(text, padding='longest', return_tensors="pt").to(device)
         model_caption = model_caption.load_state_dict(state_dict_audio_caption,strict=False)
-        model = model_caption.clone()
     elif task_type == 'Visual Question Answering':
         question = instruction+'?'+special_answer_token
         text_input = tokenizer(question, padding='longest', return_tensors="pt").to(device)
         model_caption = model_caption.load_state_dict(state_dict_vqa,strict=False)
-        model = model_caption.clone()
     elif task_type == 'Visual Question Answering':
         question = instruction+'?'+special_answer_token
         text_input = tokenizer(question, padding='longest', return_tensors="pt").to(device)
         model_caption = model_caption.load_state_dict(state_dict_video_qa,strict=False)
-        model = model_caption.clone()
     else:
         raise NotImplemented

     if task_type == 'Image Captioning':
         text = ['']
         text_input = tokenizer(text, padding='longest', return_tensors="pt").to(device)
+        model = model_caption
     elif task_type == 'Video Captioning':
         text = ['']
         text_input = tokenizer(text, padding='longest', return_tensors="pt").to(device)
         model_caption = model_caption.load_state_dict(state_dict_video_caption,strict=False)
+        model = model_caption
     elif task_type == 'Audio Captioning':
         text = ['']
         text_input = tokenizer(text, padding='longest', return_tensors="pt").to(device)
         model_caption = model_caption.load_state_dict(state_dict_audio_caption,strict=False)
+        model = model_caption
     elif task_type == 'Visual Question Answering':
         question = instruction+'?'+special_answer_token
         text_input = tokenizer(question, padding='longest', return_tensors="pt").to(device)
         model_caption = model_caption.load_state_dict(state_dict_vqa,strict=False)
+        model = model_caption
     elif task_type == 'Visual Question Answering':
         question = instruction+'?'+special_answer_token
         text_input = tokenizer(question, padding='longest', return_tensors="pt").to(device)
         model_caption = model_caption.load_state_dict(state_dict_video_qa,strict=False)
+        model = model_caption
     else:
         raise NotImplemented