File size: 1,828 Bytes

1e05993
7feaf20
 
6a72b4d
1e05993
6a67ddb
 
7feaf20
 
 
58ff319
e6b2e2d
1e05993
23be6ed
1a792e3
6a67ddb
185c874
e6b2e2d
5701230
9599168
1e05993
23be6ed
 
1ac6526
 
23be6ed
 
 
 
 
6a67ddb
1ac6526
928a2e1
 
1ac6526
928a2e1
 
b9c7f3e
 
928a2e1

from typing import Dict, Any
from PIL import Image    
import requests
import torch
import numpy as np
from transformers import AutoProcessor, LlavaForConditionalGeneration, BitsAndBytesConfig


class EndpointHandler():
    def __init__(self, path=""):
        model_id = path
        self.model = LlavaForConditionalGeneration.from_pretrained(
            model_id, 
            torch_dtype=torch.float32   , 
            low_cpu_mem_usage=True,
            load_in_4bit=True
        )
        self.processor = AutoProcessor.from_pretrained(model_id)

    def __call__(self, data: Dict[str, Any]):
        parameters = data.pop("inputs", data)
        url = ["http://images.cocodataset.org/val2017/000000039769.jpg", 
               "http://images.cocodataset.org/val2017/000000039769.jpg",
                "http://images.cocodataset.org/val2017/000000039769.jpg",
                "http://images.cocodataset.org/val2017/000000039769.jpg",
                "http://images.cocodataset.org/val2017/000000039769.jpg",
                "http://images.cocodataset.org/val2017/000000039769.jpg",
                "http://images.cocodataset.org/val2017/000000039769.jpg",
                "http://images.cocodataset.org/val2017/000000039769.jpg",
                "http://images.cocodataset.org/val2017/000000039769.jpg"]
        prompt = "USER: <image>\nWhat are these?\nASSISTANT:"
    
        outputs = []
        for link in url:
            raw_image = Image.open(requests.get(link, stream=True).raw)
            inputs = self.processor(prompt, raw_image, return_tensors='pt').to(0, torch.float16)
            output = self.model.generate(**inputs, max_new_tokens=200, do_sample=False)
            readable = (self.processor.decode(output[0][2:], skip_special_tokens=True))
            outputs.append(readable)
        return outputs