EyeSee_chi

Running

App Files Files Community

LouisLi commited on Jun 2, 2024

Commit

7cab02d

verified ·

1 Parent(s): eab8f59

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -6

app.py CHANGED Viewed

@@ -635,20 +635,25 @@ def submit_caption(image_input, state, generated_caption, text_refiner, visual_c
             state = state + [(None, f"{focus_info}")]
             print("new_cap",focus_info)
-            refined_image_input = create_bubble_frame(np.array(origin_image_input), focus_info, click_index, input_mask,
-                                                      input_points=input_points, input_labels=input_labels)
             try:
-                waveform_visual, audio_output = tts.predict(focus_info.replace('#', ''), input_language, input_audio, input_mic, use_mic, agree)
-                return state, state, refined_image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, waveform_visual, audio_output
             except Exception as e:
                 state = state + [(None, f"Error during TTS prediction: {str(e)}")]
                 print(f"Error during TTS prediction: {str(e)}")
-                return state, state, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, None, None
         else:
             try:
                 waveform_visual, audio_output = tts.predict(generated_caption, input_language, input_audio, input_mic, use_mic, agree)
-                return state, state, image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, waveform_visual, audio_output
             except Exception as e:
                 state = state + [(None, f"Error during TTS prediction: {str(e)}")]
                 print(f"Error during TTS prediction: {str(e)}")

             state = state + [(None, f"{focus_info}")]
             print("new_cap",focus_info)
+            # refined_image_input = create_bubble_frame(np.array(origin_image_input), focus_info, click_index, input_mask,
+            #                                           input_points=input_points, input_labels=input_labels)
             try:
+                waveform_visual, audio_output = tts.predict(focus_info, input_language, input_audio, input_mic, use_mic, agree)
+                # return state, state, refined_image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, waveform_visual, audio_output
+                return state, state, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, waveform_visual, audio_output
             except Exception as e:
                 state = state + [(None, f"Error during TTS prediction: {str(e)}")]
                 print(f"Error during TTS prediction: {str(e)}")
+                # return state, state, refined_image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, None, None
+                return state, state, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, waveform_visual, audio_output
         else:
             try:
                 waveform_visual, audio_output = tts.predict(generated_caption, input_language, input_audio, input_mic, use_mic, agree)
+                # return state, state, image_input, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, waveform_visual, audio_output
+                return state, state, click_index_state, input_mask_state, input_points_state, input_labels_state, out_state, waveform_visual, audio_output
             except Exception as e:
                 state = state + [(None, f"Error during TTS prediction: {str(e)}")]
                 print(f"Error during TTS prediction: {str(e)}")