HongxuanLi
/

nougat-base-deploy

vision-encoder-decoder

image-text-to-text

Model card Files Files and versions Community

Hongxuan Li commited on Apr 22, 2024

Commit

d21a961

·

1 Parent(s): 9b73c65

add handler

Files changed (2) hide show

.DS_Store +0 -0
handler.py +37 -0

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

handler.py ADDED Viewed

	@@ -0,0 +1,37 @@

+from transformers import NougatProcessor, VisionEncoderDecoderModel
+import torch.cuda
+import io
+import base64
+from PIL import Image
+from typing import Dict, Any
+class EndpointHandler():
+    def __init__(self, path="facebook/nougat-base"):
+        self.device = "cuda" if torch.cuda.is_available() else "cpu"
+        self.processor = NougatProcessor.from_pretrained(path)
+        self.model = VisionEncoderDecoderModel.from_pretrained(path)
+        self.model = model.to(self.device)
+    def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
+        """
+        Args:
+            data (Dict): The payload with the text prompt
+        and generation parameters.
+        """
+        # Get inputs
+        input = data.pop("inputs", None)
+        parameters = data.pop("parameters", None)
+        fix_markdown = data.pop("fix_markdown", None)
+        if input is None:
+            raise ValueError("Missing image.")
+        # autoregressively generate tokens, with custom stopping criteria (as defined by the Nougat authors)
+        binary_data = base64.b64decode(input)
+        image = Image.open(io.BytesIO(binary_data))
+        pixel_values = self.processor(images= image, return_tensors="pt").pixel_values
+        outputs = self.model.generate(inputs = pixel_values.to(self.device),
+                                      bad_words_ids=[[self.processor.tokenizer.unk_token_id]],
+                                      **parameters)
+        generated = self.processor.batch_decode(outputs[0], skip_special_tokens=True)[0]
+        prediction = self.processor.post_process_generation(generated, fix_markdown=fix_markdown)
+        return {"generated_text": prediction}