msVision_3

Runtime error

App Files Files Community

seawolf2357 commited on Feb 27, 2024

Commit

1e442f4

verified ·

1 Parent(s): dedab71

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -27

app.py CHANGED Viewed

@@ -4,37 +4,25 @@ from gradio_client import Client  # 가정: gradio_client 라이브러리가 사
 import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 import torch
 from PIL import Image
-model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-feature_extractor = ViTImageProcessor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
-tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
-max_length = 16
-num_beams = 4
-gen_kwargs = {"max_length": max_length, "num_beams": num_beams}
-def predict_step(image_paths):
-  images = []
-  for image_path in image_paths:
-    i_image = Image.open(image_path)
-    if i_image.mode != "RGB":
-      i_image = i_image.convert(mode="RGB")
-    images.append(i_image)
-  pixel_values = feature_extractor(images=images, return_tensors="pt").pixel_values
-  pixel_values = pixel_values.to(device)
-  output_ids = model.generate(pixel_values, **gen_kwargs)
-  preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
-  preds = [pred.strip() for pred in preds]
-  return preds
-predict_step(pipeline)
 # 이미지 인식 파이프라인 로드
@@ -81,13 +69,13 @@ def classify_and_generate_voice(uploaded_image):
     # 반환된 음성 및 음악 결과를 Gradio 인터페이스로 전달
     # 예: voice_result['url'] 또는 voice_result['audio_data'] 등
-    return top_prediction, voice_result, music_result
 # Gradio 인터페이스 생성
 iface = gr.Interface(
     fn=classify_and_generate_voice,
     inputs=gr.Image(type="pil"),
-    outputs=[gr.Label(), gr.Audio(), gr.Audio()],
     title="msVision_3",
     description="이미지를 업로드하면, 사물을 인식하고 해당하는 음성 및 음악을 생성합니다.(recognizes object and generate Voice&Music)",
     examples=["dog.jpg", "cat.png", "cafe.jpg"]

 import VisionEncoderDecoderModel, ViTImageProcessor, AutoTokenizer
 import torch
 from PIL import Image
+import requests
+# 모델과 토크나이저 로드
+model_id = "nlpconnect/vit-gpt2-image-captioning"
+model = VisionEncoderDecoderModel.from_pretrained(model_id)
+feature_extractor = AutoFeatureExtractor.from_pretrained(model_id)
+tokenizer = AutoTokenizer.from_pretrained(model_id)
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model.to(device)
+def predict_caption(image):
+    image = Image.open(image)
+    inputs = feature_extractor(images=image, return_tensors="pt")
+    pixel_values = inputs["pixel_values"].to(device)
+    output_ids = model.generate(pixel_values)
+    caption = tokenizer.decode(output_ids[0], skip_special_tokens=True)
+    return caption
 # 이미지 인식 파이프라인 로드
     # 반환된 음성 및 음악 결과를 Gradio 인터페이스로 전달
     # 예: voice_result['url'] 또는 voice_result['audio_data'] 등
+    return  caption, top_prediction, voice_result, music_result
 # Gradio 인터페이스 생성
 iface = gr.Interface(
     fn=classify_and_generate_voice,
     inputs=gr.Image(type="pil"),
+    outputs=[gr.Textbox(label="Caption"), gr.Label(), gr.Audio(), gr.Audio()],
     title="msVision_3",
     description="이미지를 업로드하면, 사물을 인식하고 해당하는 음성 및 음악을 생성합니다.(recognizes object and generate Voice&Music)",
     examples=["dog.jpg", "cat.png", "cafe.jpg"]