Spaces:

abdfajar707
/

LLaMa3_RKPCase

Paused

App Files Files Community

abdfajar707 commited on Jun 20, 2024

Commit

28d09c0

verified ·

1 Parent(s): 55a2548

Update app.py

Browse files

Files changed (1) hide show

app.py +74 -10

app.py CHANGED Viewed

@@ -1,14 +1,78 @@
-import gradio as gr
-import spaces
 import torch
-zero = torch.Tensor([0]).cuda()
-print(zero.device) # <-- 'cpu' 🤔
-@spaces.GPU
-def greet(n):
-    print(zero.device) # <-- 'cuda:0' 🤗
-    return f"Hello {zero + n} Tensor"
-demo = gr.Interface(fn=greet, inputs=gr.Number(), outputs=gr.Text())
-demo.launch()

+from unsloth import FastLanguageModel
 import torch
+import gradio as gr
+max_seq_length = 2048 # Choose any! We auto support RoPE Scaling internally!
+dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
+load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.
+alpaca_prompt = """Berikut adalah instruksi yang deskripsikan tugas dan sepasang input dan konteksnya. Tulis response sesuai dengan permintaan.
+### Instruction:
+{}
+### Input:
+{}
+### Response:
+{}"""
+if True:
+    from unsloth import FastLanguageModel
+    model, tokenizer = FastLanguageModel.from_pretrained(
+        model_name = "abdfajar707/llama3_8B_lora_model_rkp_v2", # YOUR MODEL YOU USED FOR TRAINING
+        max_seq_length = max_seq_length,
+        dtype = dtype,
+        load_in_4bit = load_in_4bit,
+    )
+    FastLanguageModel.for_inference(model) # Enable native 2x faster inference
+# Fungsi untuk menghasilkan respons
+def generate_response(prompt, max_length=1000):
+    inputs = tokenizer(
+[
+    alpaca_prompt.format(
+        prompt, # instruction
+        "", # input
+        "", # output - leave this blank for generation!
+    )
+], return_tensors = "pt").to("cuda")
+    outputs = model.generate(**inputs, max_length=max_length, pad_token_id=tokenizer.eos_token_id)
+    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return response
+# Fungsi untuk antarmuka Gradio
+def chatbot_interface(user_input, history):
+    # Buat respons dari model
+    response = generate_response(user_input)
+    # Perbarui riwayat percakapan
+    history.append(("User", user_input))
+    history.append(("Bot", response))
+    return history, history
+# Definisikan input dan output untuk antarmuka menggunakan Gradio versi terbaru
+inputs = [
+    gr.Textbox(lines=1, label="Masukkan pesan Anda"),
+    gr.State(value=[])  # Untuk menyimpan riwayat percakapan
+]
+outputs = [
+    gr.Chatbot(label="Respons Chatbot"),
+    gr.State()  # Untuk memperbarui riwayat percakapan
+]
+# Buat dan luncurkan antarmuka Gradio
+interface = gr.Interface(
+    fn=chatbot_interface,
+    inputs=inputs,
+    outputs=outputs,
+    title="LLaMA3 LoRA Chatbot",
+    description="Chatbot yang didukung oleh model LLaMA3 dengan modifikasi LoRA."
+)
+# Jalankan antarmuka
+interface.launch()
+#demo = gr.Interface(fn=greet, inputs=gr.Number(), outputs=gr.Text())
+#demo.launch()