Spaces:

adamboom111
/

text2sql

Sleeping

App Files Files Community

adamboom111 commited on Jul 18

Commit

f63709a

verified ·

1 Parent(s): aa4a308

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -22

app.py CHANGED Viewed

@@ -1,37 +1,52 @@
 import gradio as gr
-from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
-# Load the GaussAlgo model
-model_path = "gaussalgo/T5-LM-Large-text2sql-spider"
-model = AutoModelForSeq2SeqLM.from_pretrained(model_path)
-tokenizer = AutoTokenizer.from_pretrained(model_path)
 def generate_sql(payload):
-    # Extract parts from the JSON payload
     question = payload.get("question", "")
     schema = payload.get("schema", "")
     sample_rows = payload.get("sample_rows", [])
-    # Convert sample rows into a single string
-    sample_str = " ".join([str(row) for row in sample_rows]) if sample_rows else ""
-    # Build model input prompt
-    prompt = f"Question: {question} Schema: {schema} Sample Rows: {sample_str}"
-    # Tokenize and generate
-    inputs = tokenizer(prompt, return_tensors="pt")
-    outputs = model.generate(**inputs, max_length=512)
-    generated_sql = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return generated_sql
-# Gradio interface
 demo = gr.Interface(
     fn=generate_sql,
     inputs=gr.JSON(label="Input JSON (question, schema, sample_rows)"),
     outputs="text",
-    title="Text-to-SQL Generator",
-    description="Enter a JSON object with 'question', 'schema', and optional 'sample_rows'. The model will generate SQL."
 )
-demo.launch()

 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+# Load the DeepSeek model
+model_name = "deepseek-ai/DeepSeek-V3"  # Or "deepseek-ai/DeepSeek-R1-0528"
+tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True)
+# Function to handle JSON prompt for SQL generation
 def generate_sql(payload):
     question = payload.get("question", "")
     schema = payload.get("schema", "")
     sample_rows = payload.get("sample_rows", [])
+    sample_str = "\n".join([str(row) for row in sample_rows]) if sample_rows else ""
+    prompt = f"""
+You are a text-to-SQL data analyst.
+Based on the following information, write a clean SQL query that works with DuckDB. Do not hallucinate tables or fields.
+Schema: {schema}
+Sample Rows:
+{sample_str}
+Question: {question}
+SQL:"""
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=128,
+        do_sample=True,
+        temperature=0.6,
+        top_p=0.95,
+        pad_token_id=tokenizer.eos_token_id
+    )
+    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    generated_sql = response.split("SQL:")[-1].strip()
     return generated_sql
+# Launch Gradio interface
 demo = gr.Interface(
     fn=generate_sql,
     inputs=gr.JSON(label="Input JSON (question, schema, sample_rows)"),
     outputs="text",
+    title="Text-to-SQL (DeepSeek)",
+    description="Use DeepSeek to convert a natural language question and schema into SQL."
 )
+demo.launch()