Spaces:

id2223-SE
/

id2223-lab2

Sleeping

File size: 2,592 Bytes

0c97faa
d67a1b2
ccadd27
 
 
 
0c97faa
 
 
d67a1b2
0c97faa
ccadd27
d67a1b2
 
ccadd27
 
 
0c97faa
d67a1b2
 
 
0c97faa
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ccadd27
 
 
 
 
 
 
 
0c97faa
ccadd27
 
 
 
 
 
 
 
0c97faa

import gradio as gr
from peft import PeftModel, PeftTokenizer
from transformers import TextStreamer

# Load model directly
from transformers import AutoModel, AutoTokenizer

"""
For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
Info of how to use a model after training on hf https://huggingface.co/docs/trl/main/en/use_model
"""

model_name_or_path = "unsloth/Llama-3.2-3B-Instruct"
adapter_name = "samlama111/lora_model"

model = AutoModel.from_pretrained(model_name_or_path)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)

model = PeftModel.from_pretrained(model, adapter_name)
tokenizer = PeftTokenizer.from_pretrained(tokenizer, adapter_name)


def respond(
    message,
    history: list[tuple[str, str]],
    system_message,
    max_tokens,
    temperature,
    top_p,
):
    messages = [{"role": "system", "content": system_message}]

    for val in history:
        if val[0]:
            messages.append({"role": "user", "content": val[0]})
        if val[1]:
            messages.append({"role": "assistant", "content": val[1]})

    messages.append({"role": "user", "content": message})

    response = ""

    inputs = tokenizer.apply_chat_template(
        messages, tokenize=True, add_generation_prompt=True, return_tensors="pt"
    )

    text_streamer = TextStreamer(tokenizer)
    # TODO: Doesn't stream ATM
    for message in model.generate(
        input_ids=inputs, streamer=text_streamer, max_new_tokens=1024, use_cache=True
    ):
        # Decode the tensor to a string
        decoded_message = tokenizer.decode(message, skip_special_tokens=True)

        # Manually getting the response
        response = decoded_message.split("assistant")[
            -1
        ].strip()  # Extract only the assistant's response
        print(response)

        yield response


"""
For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
"""
demo = gr.ChatInterface(
    respond,
    additional_inputs=[
        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
        gr.Slider(
            minimum=0.1,
            maximum=1.0,
            value=0.95,
            step=0.05,
            label="Top-p (nucleus sampling)",
        ),
    ],
)


if __name__ == "__main__":
    demo.launch()