Spaces:

pollitoconpapass
/

cuzco-quechua-rag-api

Sleeping

pollitoconpapass commited on Oct 29, 2024

Commit

e9fa8d8

1 Parent(s): 806388a

Add application file

Files changed (5) hide show

.gitignore ADDED Viewed

Dockerfile ADDED Viewed

+# Usa la imagen slim-buster para evitar problemas con dependencias C
+FROM python:3.12-slim
+# Configura el directorio de trabajo
+WORKDIR /app
+# Copia solo requirements.txt para cachear la instalación de dependencias
+COPY requirements.txt .
+# Instala dependencias del sistema para compatibilidad con Milvus y Transformers
+RUN apt-get update && apt-get install -y \
+    gcc \
+    libpq-dev \
+    build-essential \
+    && rm -rf /var/lib/apt/lists/*
+# Instala dependencias de Python
+RUN pip install --no-cache-dir --upgrade pip \
+    && pip install --no-cache-dir -r requirements.txt
+# Copia el resto del código de la app
+COPY . .
+EXPOSE 7860
+# Define el comando de arranque de la API
+CMD ["uvicorn", "app:app", "--host", "0.0.0.0", "--port", "7860"]

app.py ADDED Viewed

+from fastapi.security import HTTPBearer
+from fastapi import FastAPI, HTTPException, Depends
+from functions import retrieve_similar_sentence
+app = FastAPI()
+security = HTTPBearer()
+@app.post("/translate")
+def translate_sentence(data: dict, token: str = Depends(security)):
+	try:
+		api_key = token.credentials
+		sentence = data["sentence"]
+		source_language = data["source_language"]
+		if not sentence or not source_language:
+			raise HTTPException(status_code=400, detail="Missing data in the request body")
+		results = retrieve_similar_sentence(sentence, source_language, api_key)
+		return {
+			"top_match": {
+				"source_sentence": results[0]["source_sentence"],
+				"target_sentence": results[0]["target_sentence"]
+			},
+			"2nd_match": {
+				"source_sentence": results[1]["source_sentence"],
+				"target_sentence": results[1]["target_sentence"]
+			},
+			"3rd_match": {
+				"source_sentence": results[2]["source_sentence"],
+				"target_sentence": results[2]["target_sentence"]
+			},
+			"4th_match": {
+				"source_sentence": results[3]["source_sentence"],
+				"target_sentence": results[3]["target_sentence"]
+			}
+		}
+	except Exception as e:
+		raise HTTPException(status_code=500, detail=str(e))

functions.py ADDED Viewed

+import os
+from dotenv import load_dotenv
+from pinecone import Pinecone
+from sentence_transformers import SentenceTransformer
+load_dotenv()
+# === LOAD GNRL DATA ===
+EMBEDDING_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
+model = SentenceTransformer(EMBEDDING_MODEL)
+# === RETRIEVAL FUNCTION FROM PINECONE ===
+def retrieve_similar_sentence(query_sentence, source_language, api_key):
+    pc = Pinecone(api_key = api_key)
+    index_name = "spa-quz-translation-index" if source_language == "es" else "quz-spa-translation-index"
+    index = pc.Index(index_name)
+    query_embedding = model.encode(query_sentence).tolist()
+    response = index.query(
+        vector=query_embedding,
+        top_k=4,
+        include_metadata=True
+    )
+    results = []
+    for match in response['matches']:
+      metadata = match['metadata']
+      score = match['score']
+      results.append({
+          "source_sentence": metadata["source_sentence"],
+          "target_sentence": metadata["target_sentence"],
+          "score": score
+      })
+    return results

requirements.txt ADDED Viewed

+fastapi==0.95.1
+pymilvus==2.4.8
+sentence_transformers==2.3.1
+uvicorn==0.22.0
+pinecone==5.3.1
+pinecone-client==5.0.1