captain1-1

Sleeping

App Files Files Community

captain1-1 / app.py

mrbeliever

Update app.py

e3bbb23 verified about 1 month ago

raw

history blame contribute delete

2.7 kB

	import gradio as gr
	import spaces
	from transformers import AutoModelForCausalLM, AutoProcessor
	import torch
	from PIL import Image
	import subprocess
	subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)

	models = {
	"microsoft/Phi-3.5-vision-instruct": AutoModelForCausalLM.from_pretrained("microsoft/Phi-3.5-vision-instruct", trust_remote_code=True, torch_dtype="auto", _attn_implementation="flash_attention_2").cuda().eval()
	}

	processors = {
	"microsoft/Phi-3.5-vision-instruct": AutoProcessor.from_pretrained("microsoft/Phi-3.5-vision-instruct", trust_remote_code=True)
	}


	kwargs = {}
	kwargs['torch_dtype'] = torch.bfloat16

	user_prompt = '<\|user\|>\n'
	assistant_prompt = '<\|assistant\|>\n'
	prompt_suffix = "<\|end\|>\n"

	default_question = "highly detailed caption"

	@spaces.GPU
	def run_example(image, text_input=default_question, model_id="microsoft/Phi-3.5-vision-instruct"):
	model = models[model_id]
	processor = processors[model_id]

	prompt = f"{user_prompt}<\|image_1\|>\n{text_input}{prompt_suffix}{assistant_prompt}"
	image = Image.fromarray(image).convert("RGB")

	inputs = processor(prompt, image, return_tensors="pt").to("cuda:0")
	generate_ids = model.generate(**inputs,
	max_new_tokens=1000,
	eos_token_id=processor.tokenizer.eos_token_id,
	)
	generate_ids = generate_ids[:, inputs['input_ids'].shape[1]:]
	response = processor.batch_decode(generate_ids,
	skip_special_tokens=True,
	clean_up_tokenization_spaces=False)[0]
	return response

	css = """
	#output_text {
	height: 500px;
	overflow: auto;
	border: 1px solid #333;
	}
	#model_selector, #text_input {
	display: none !important;
	}
	#main_container {
	border: 2px solid black;
	padding: 20px;
	border-radius: 10px;
	}
	"""

	with gr.Blocks(css=css) as demo:
	with gr.Row():
	with gr.Column():
	input_img = gr.Image(label="Input Picture", interactive=True)
	model_selector = gr.Dropdown(choices=list(models.keys()), label="Model", value="microsoft/Phi-3.5-vision-instruct", visible=False)
	text_input = gr.Textbox(label="Question", value=default_question, visible=False)
	submit_btn = gr.Button(value="Submit")
	with gr.Column():
	output_text = gr.Textbox(label="Output Text")

	submit_btn.click(run_example, [input_img, text_input, model_selector], [output_text])

	demo.queue(api_open=False)
	demo.launch(debug=True, show_api=False)