Spaces:

sounar
/

ContactDoctor-API

Paused

sounar commited on Nov 18, 2024

Commit

2629ae5

verified ·

1 Parent(s): 768d9ee

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -7,7 +7,8 @@ from PIL import Image
 from transformers import AutoModel, AutoTokenizer, BitsAndBytesConfig
 import gradio as gr
-# Load the model and tokenizer
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_quant_type="nf4",
@@ -15,20 +16,22 @@ bnb_config = BitsAndBytesConfig(
     bnb_4bit_compute_dtype=torch.float16,
 )
 model = AutoModel.from_pretrained(
     "ContactDoctor/Bio-Medical-MultiModal-Llama-3-8B-V1",
     quantization_config=bnb_config,
     device_map="auto",
     torch_dtype=torch.float16,
     trust_remote_code=True,
-    attn_implementation="flash_attention_2",
 )
 tokenizer = AutoTokenizer.from_pretrained(
-    "ContactDoctor/Bio-Medical-MultiModal-Llama-3-8B-V1",
     trust_remote_code=True
 )
 # Define the function to handle the input
 def process_input(image, question):
     image = Image.open(image).convert("RGB")

 from transformers import AutoModel, AutoTokenizer, BitsAndBytesConfig
 import gradio as gr
+# Configuration for 4-bit quantization
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_quant_type="nf4",
     bnb_4bit_compute_dtype=torch.float16,
 )
+# Load the model without flash-attn
 model = AutoModel.from_pretrained(
     "ContactDoctor/Bio-Medical-MultiModal-Llama-3-8B-V1",
     quantization_config=bnb_config,
     device_map="auto",
     torch_dtype=torch.float16,
     trust_remote_code=True,
+    attn_implementation=None,  # Disable flash-attn
 )
 tokenizer = AutoTokenizer.from_pretrained(
+    "ContactDoctor/Bio-Medical-MultiModal-Llama-3-8B-V1",
     trust_remote_code=True
 )
 # Define the function to handle the input
 def process_input(image, question):
     image = Image.open(image).convert("RGB")