Spaces:

kevinkal
/

tectopia

Running

kevinkal commited on 19 days ago

Commit

e90ba75

verified ·

1 Parent(s): b5053e4

Update app.py with Gemini multimodal

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,6 +4,7 @@ from pydantic import BaseModel
 from typing import Annotated
 from mistralai import Mistral
 from google import genai
 from auth import verify_token
 import os
@@ -52,4 +53,25 @@ async def gemini(request: LLMRequest, token: Annotated[str, Depends(verify_token
             if chunk.text:
                 yield chunk.text
-    return StreamingResponse(generate(), media_type="text/plain")

 from typing import Annotated
 from mistralai import Mistral
 from google import genai
+from google.genai import types
 from auth import verify_token
 import os
             if chunk.text:
                 yield chunk.text
+    return StreamingResponse(generate(), media_type="text/plain")
+class GeminiMultimodalRequest(BaseModel):
+    model: str
+    prompt: str
+    image: str # url or base64
+@app.post("/gemini/multimodal")
+async def gemini_multimodal(request: GeminiMultimodalRequest, token: Annotated[str, Depends(verify_token)]):
+    if request.image.startswith('http'):
+        async with httpx.AsyncClient() as client:
+            image = await client.get(request.image)
+            image = types.Part.from_bytes(image.content, "image/jpeg")
+    else:
+        image = types.Part.from_bytes(request.image.encode(), "image/jpeg")
+    response = gemini_client.models.generate_content(
+        model=request.model,
+        contents=[request.prompt, image]
+    )
+    return {"response": response.text}