joy-caption-pre-alpha

Running on Zero

bobber commited on Dec 28, 2024

Commit

72869ac

verified ·

1 Parent(s): d35bf16

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -70,13 +70,19 @@ def stream_chat(input_image: Image.Image, vlm_prompt):
 	image = clip_processor(images=input_image, return_tensors='pt').pixel_values
 	image = image.to('cuda')
-	# Tokenize the prompt
     if not vlm_prompt:
         vlm_prompt = VLM_PROMPT
     vlm_prompt = vlm_prompt + "\n"
-	prompt = tokenizer.encode(vlm_prompt, return_tensors='pt', padding=False, truncation=False, add_special_tokens=False)
-	# Embed image
 	with torch.amp.autocast_mode.autocast('cuda', enabled=True):
 		vision_outputs = clip_model(pixel_values=image, output_hidden_states=True)
 		image_features = vision_outputs.hidden_states[-2]

 	image = clip_processor(images=input_image, return_tensors='pt').pixel_values
 	image = image.to('cuda')
+    # Tokenize the prompt
     if not vlm_prompt:
         vlm_prompt = VLM_PROMPT
     vlm_prompt = vlm_prompt + "\n"
+    prompt = tokenizer.encode(
+        vlm_prompt,
+        return_tensors='pt',
+        padding=False,
+        truncation=False,
+        add_special_tokens=False
+    )
+    # Embed image
 	with torch.amp.autocast_mode.autocast('cuda', enabled=True):
 		vision_outputs = clip_model(pixel_values=image, output_hidden_states=True)
 		image_features = vision_outputs.hidden_states[-2]