Spaces:

MaxLSB
/

LeCarnet-Demo

Running

App Files Files Community

LeCarnet-Demo / app.py

MaxLSB

Update app.py

726d23d verified 19 days ago

raw

history blame contribute delete

4.76 kB

	import os
	import torch
	import threading
	import gradio as gr
	from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer

	# Hugging Face token
	hf_token = os.environ["HUGGINGFACEHUB_API_TOKEN"]
	torch.set_num_threads(1)

	# Globals
	tokenizer = None
	model = None
	current_model_name = None

	# Load selected model
	def load_model(model_name):
	global tokenizer, model, current_model_name

	# Only load if it's a different model
	if current_model_name == model_name:
	return

	full_model_name = f"MaxLSB/{model_name}"
	print(f"Loading model: {full_model_name}")
	tokenizer = AutoTokenizer.from_pretrained(full_model_name, token=hf_token)
	model = AutoModelForCausalLM.from_pretrained(full_model_name, token=hf_token)
	model.eval()
	current_model_name = model_name
	print(f"Model loaded: {current_model_name}")

	# Initialize default model
	load_model("LeCarnet-8M")

	# Streaming generation function
	def respond(message, max_tokens, temperature, top_p, selected_model):
	# Ensure the correct model is loaded before generation
	load_model(selected_model)

	inputs = tokenizer(message, return_tensors="pt")
	streamer = TextIteratorStreamer(tokenizer, skip_prompt=False, skip_special_tokens=True)

	generate_kwargs = dict(
	**inputs,
	streamer=streamer,
	max_new_tokens=max_tokens,
	do_sample=True,
	temperature=temperature,
	top_p=top_p,
	eos_token_id=tokenizer.eos_token_id,
	)

	def run():
	with torch.no_grad():
	model.generate(**generate_kwargs)

	thread = threading.Thread(target=run)
	thread.start()

	response = ""
	for new_text in streamer:
	response += new_text
	yield f"{current_model_name}\n\n{response}"

	# User input handler
	def user(message, chat_history):
	chat_history.append([message, None])
	return "", chat_history

	# Bot response handler - UPDATED to pass selected model
	def bot(chatbot, max_tokens, temperature, top_p, selected_model):
	message = chatbot[-1][0]
	response_generator = respond(message, max_tokens, temperature, top_p, selected_model)
	for response in response_generator:
	chatbot[-1][1] = response
	yield chatbot

	# Model selector handler
	def update_model(model_name):
	load_model(model_name)
	return model_name

	# Clear chat handler
	def clear_chat():
	return None

	# Gradio UI
	with gr.Blocks(title="LeCarnet - Chat Interface") as demo:
	with gr.Row():
	gr.HTML("""
	<div style="text-align: center; width: 100%;">
	<h1 style="margin: 0;">LeCarnet Demo</h1>
	</div>
	""")

	msg_input = gr.Textbox(
	placeholder="Il était une fois un petit garçon",
	label="User Input",
	render=False
	)

	with gr.Row():
	with gr.Column(scale=1, min_width=150):
	model_selector = gr.Dropdown(
	choices=["LeCarnet-3M", "LeCarnet-8M", "LeCarnet-21M"],
	value="LeCarnet-8M",
	label="Select Model"
	)
	max_tokens = gr.Slider(1, 512, value=512, step=1, label="Max New Tokens")
	temperature = gr.Slider(0.1, 2.0, value=0.4, step=0.1, label="Temperature")
	top_p = gr.Slider(0.1, 1.0, value=0.9, step=0.05, label="Top-p Sampling")
	clear_button = gr.Button("Clear Chat")

	gr.Examples(
	examples=[
	["Il était une fois un petit phoque nommé Zoom. Zoom était très habile et aimait jouer dans l'eau."],
	["Il était une fois un petit écureuil nommé Pipo. Pipo adorait grimper aux arbres."],
	["Il était une fois un petit garçon nommé Tom. Tom aimait beaucoup dessiner."],
	],
	inputs=msg_input,
	label="Example Prompts"
	)

	with gr.Column(scale=4):
	chatbot = gr.Chatbot(
	bubble_full_width=False,
	height=500
	)
	msg_input.render()

	# Event Handlers
	model_selector.change(
	fn=update_model,
	inputs=[model_selector],
	outputs=[model_selector],
	)

	msg_input.submit(
	fn=user,
	inputs=[msg_input, chatbot],
	outputs=[msg_input, chatbot],
	queue=False
	).then(
	fn=bot,
	inputs=[chatbot, max_tokens, temperature, top_p, model_selector], # Pass model_selector
	outputs=[chatbot]
	)

	clear_button.click(
	fn=clear_chat,
	inputs=None,
	outputs=chatbot,
	queue=False
	)

	if __name__ == "__main__":
	demo.queue(default_concurrency_limit=10, max_size=10).launch(ssr_mode=False, max_threads=10)