TI_RAG_Demo_OpenAI

Sleeping

TI_RAG_Demo_OpenAI / app.py

Create app.py

3c6573c verified 9 months ago

1.54 kB

	from huggingface_hub import InferenceClient
	import gradio as gr

	client = InferenceClient("meta-llama/Meta-Llama-3.1-8B")

	def format_prompt(message, history):
	fixed_prompt= """ """
	prompt = f"<s>{fixed_prompt}"
	for user_prompt, bot_response in history:
	prompt += f"\n User:{user_prompt}\n LLM Response:{bot_response}"
	prompt += f"\nUser: {message}\nLLM Response:"

	return prompt

	def generate(
	prompt, history, temperature=0.1, max_new_tokens=2048, top_p=0.8, repetition_penalty=1.0,
	):
	temperature = float(temperature)
	if temperature < 1e-2:
	temperature = 1e-2
	top_p = float(top_p)

	generate_kwargs = dict(
	temperature=temperature,
	max_new_tokens=max_new_tokens,
	top_p=top_p,
	repetition_penalty=repetition_penalty,
	do_sample=True,
	seed=42,
	)

	formatted_prompt = format_prompt(prompt, history)

	stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)

	yield stream



	demo = gr.ChatInterface (fn=generate,
	title="Mood-Based Music Recommender",
	retry_btn=None,
	undo_btn=None,
	clear_btn=None,
	description="<span style='font-size: larger; font-weight: bold;'>Hi! I'm your music buddy—tell me about your mood and the type of tunes you're in the mood for today!</span>",
	)

	demo.queue().launch()