Spaces:

artificialguybr
/

qwen-vl

Build error

App Files Files Community

artificialguybr commited on Sep 6, 2023

Commit

dc2ea44

1 Parent(s): 3c21144

Update app.py

Browse files

Files changed (1) hide show

app.py +5 -6

app.py CHANGED Viewed

@@ -7,14 +7,15 @@ import requests
 from io import BytesIO
 # Carregar o modelo Qwen-VL e o tokenizer
-tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-VL-Chat", trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat", load_in_4bit=True, device_map="auto", trust_remote_code=True).eval()
 def generate_predictions(image_input, text_input):
     # Inverter a imagem para corrigir o negativo
     user_image_path = "/tmp/user_input_test_image.jpg"
     Image.fromarray((255 - (image_input * 255).astype('uint8'))).save(user_image_path)
     # Preparar as entradas
     query = tokenizer.from_list_format([
         {'image': user_image_path},
@@ -23,9 +24,6 @@ def generate_predictions(image_input, text_input):
     inputs = tokenizer(query, return_tensors='pt')
     inputs = inputs.to(model.device)
-    # Correção: Converter todos os tensores no dicionário 'inputs' para HalfTensor (float16)
-    inputs = {key: value.to(torch.float16) for key, value in inputs.items()}
     # Gerar a legenda
     pred = model.generate(**inputs)
     full_response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False)
@@ -45,6 +43,7 @@ def generate_predictions(image_input, text_input):
     return image_with_boxes, frontend_response  # Retornando a resposta formatada para o frontend
 # Criar interface Gradio
 iface = gr.Interface(
     fn=generate_predictions,
     inputs=[
@@ -66,4 +65,4 @@ iface = gr.Interface(
 - **High Resolution**: Utilizes 448*448 resolution for fine-grained recognition and understanding.
 """,
 )
-iface.launch()

 from io import BytesIO
 # Carregar o modelo Qwen-VL e o tokenizer
+tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-VL-Chat-Int4", trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-VL-Chat-Int4",load_in_4bit=True, device_map="auto", trust_remote_code=True).eval()
 def generate_predictions(image_input, text_input):
     # Inverter a imagem para corrigir o negativo
     user_image_path = "/tmp/user_input_test_image.jpg"
     Image.fromarray((255 - (image_input * 255).astype('uint8'))).save(user_image_path)
     # Preparar as entradas
     query = tokenizer.from_list_format([
         {'image': user_image_path},
     inputs = tokenizer(query, return_tensors='pt')
     inputs = inputs.to(model.device)
     # Gerar a legenda
     pred = model.generate(**inputs)
     full_response = tokenizer.decode(pred.cpu()[0], skip_special_tokens=False)
     return image_with_boxes, frontend_response  # Retornando a resposta formatada para o frontend
 # Criar interface Gradio
+# Create Gradio interface
 iface = gr.Interface(
     fn=generate_predictions,
     inputs=[
 - **High Resolution**: Utilizes 448*448 resolution for fine-grained recognition and understanding.
 """,
 )
+iface.launch()