project-image-captioning

Runtime error

App Files Files Community

Natthathida commited on Feb 27, 2024

Commit

975b4c6

verified ·

1 Parent(s): a0f1951

Add python

Browse files

Files changed (1) hide show

app.py +40 -55

app.py CHANGED Viewed

@@ -1,56 +1,41 @@
-from fastapi import FastAPI
-from fastapi.middleware.cors import CORSMiddleware
-from fastapi.responses import JSONResponse
-from fastapi.staticfiles import StaticFiles
-import numpy as np
-import argparse
-import os
-HOST = os.environ.get("API_URL", "0.0.0.0")
-PORT = os.environ.get("PORT", 7860)
-parser = argparse.ArgumentParser()
-parser.add_argument("--host", default=HOST)
-parser.add_argument("--port", type=int, default=PORT)
-parser.add_argument("--reload", action="store_true", default=True)
-parser.add_argument("--ssl_certfile")
-parser.add_argument("--ssl_keyfile")
-args = parser.parse_args()
-app = FastAPI()
-app.add_middleware(
-    CORSMiddleware,
-    allow_origins=["*"],
-    allow_credentials=True,
-    allow_methods=["*"],
-    allow_headers=["*"],
 )
-@app.get("/invert")
-async def invert(text: str):
-    return {
-        "original": text,
-        "inverted": text[::-1],
-    }
-@app.get("/data")
-async def get_data():
-    data = {"data": np.random.rand(100).tolist()}
-    return JSONResponse(data)
-app.mount("/", StaticFiles(directory="static", html=True), name="static")
-if __name__ == "__main__":
-    import uvicorn
-    print(args)
-    uvicorn.run(
-        "app:app",
-        host=args.host,
-        port=args.port,
-        reload=args.reload,
-        ssl_certfile=args.ssl_certfile,
-        ssl_keyfile=args.ssl_keyfile,
-    )

+from transformers import pipeline, BlipForConditionalGeneration, BlipProcessor, AutoTokenizer, AutoModelForSeq2SeqLM
+import torchaudio
+from torchaudio.transforms import Resample
+import torch
+import gradio as gr
+# Initialize TTS model from Hugging Face
+tts_model_name = "suno/bark"
+tts = pipeline(task="text-to-speech", model=tts_model_name)
+# Initialize Blip model for image captioning
+model_id = "dblasko/blip-dalle3-img2prompt"
+blip_model = BlipForConditionalGeneration.from_pretrained(model_id)
+blip_processor = BlipProcessor.from_pretrained(model_id)
+def generate_caption(image):
+    # Generate caption from image using Blip model
+    inputs = blip_processor(images=image, return_tensors="pt")
+    pixel_values = inputs.pixel_values
+    generated_ids = blip_model.generate(pixel_values=pixel_values, max_length=50)
+    generated_caption = blip_processor.batch_decode(generated_ids, skip_special_tokens=True, temperature=0.8, top_k=40, top_p=0.9)[0]
+    # Use TTS model to convert generated caption to audio
+    audio_output = tts(generated_caption)
+    audio_path = "generated_audio_resampled.wav"
+    torchaudio.save(audio_path, torch.tensor(audio_output[0]), audio_output["sampling_rate"])
+    return generated_caption, audio_path
+# Create a Gradio interface with an image input, a textbox output, a button, and an audio player
+demo = gr.Interface(
+    fn=generate_caption,
+    inputs=gr.Image(),
+    outputs=[
+        gr.Textbox(label="Generated caption"),
+        gr.Button("Converts to Audio"),
+        gr.Audio(type="filepath", label="Generated Audio")
+    ],
+    live=True
 )
+demo.launch(share=True)