Image-To-Text-Lora-ViT

Running

App Files Files Community

Alfasign

D0k-tor commited on Jun 25, 2023

Commit

bf67bd8

0 Parent(s):

Duplicate from nttdataspain/Image-To-Text-Lora-ViT

Browse files

Co-authored-by: Daniel Puente Viejo <[email protected]>

Files changed (7) hide show

.gitattributes +38 -0
README.md +18 -0
app.py +71 -0
examples/example1.jpg +3 -0
examples/example2.jpg +3 -0
examples/example3.jpg +3 -0
requirements.txt +6 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,38 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+examples/image.jpg filter=lfs diff=lfs merge=lfs -text
+examples/example3.jpg filter=lfs diff=lfs merge=lfs -text
+examples/example2.jpg filter=lfs diff=lfs merge=lfs -text
+examples/example1.jpg filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,18 @@

+---
+title: Image To Text Lora ViT
+tags:
+- image to text
+- language models
+- LLMs
+emoji: 📷
+colorFrom: white
+colorTo: blue
+sdk: gradio
+sdk_version: 3.14.0
+app_file: app.py
+pinned: true
+license: mit
+duplicated_from: nttdataspain/Image-To-Text-Lora-ViT
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,71 @@

+import torch
+import re
+import gradio as gr
+from PIL import Image
+from transformers import AutoTokenizer, ViTFeatureExtractor, VisionEncoderDecoderModel
+import os
+import tensorflow as tf
+os.environ['TF_ENABLE_ONEDNN_OPTS'] = '0'
+device='cpu'
+model_id = "nttdataspain/vit-gpt2-coco-lora"
+model = VisionEncoderDecoderModel.from_pretrained(model_id)
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+feature_extractor = ViTFeatureExtractor.from_pretrained(model_id)
+# Predict function
+def predict(image):
+    img = image.convert('RGB')
+    model.eval()
+    pixel_values = feature_extractor(images=[img], return_tensors="pt").pixel_values
+    with torch.no_grad():
+        output_ids = model.generate(pixel_values, max_length=16, num_beams=4, return_dict_in_generate=True).sequences
+    preds = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
+    preds = [pred.strip() for pred in preds]
+    return preds[0]
+input = gr.inputs.Image(label="Upload any Image", type = 'pil', optional=True)
+output = gr.outputs.Textbox(type="text",label="Captions")
+examples_folder = os.path.join(os.path.dirname(__file__), "examples")
+examples = [os.path.join(examples_folder, file) for file in os.listdir(examples_folder)]
+with gr.Blocks() as demo:
+    gr.HTML(
+        """
+        <div style="text-align: center; max-width: 1200px; margin: 20px auto;">
+        <h1 style="font-weight: 900; font-size: 3rem; margin: 0rem">
+            📸 ViT Image-to-Text with LORA 📝
+        </h1>
+        <h2 style="text-align: left; font-weight: 450; font-size: 1rem; margin-top: 2rem; margin-bottom: 1.5rem">
+        In the field of large language models, the challenge of fine-tuning has long perplexed researchers. Microsoft, however, has unveiled an innovative solution called <b>Low-Rank Adaptation (LoRA)</b>. With the emergence of behemoth models like GPT-3 boasting billions of parameters, the cost of fine-tuning them for specific tasks or domains has become exorbitant.
+        <br>
+        <br>
+        LoRA offers a groundbreaking approach by freezing the weights of pre-trained models and introducing trainable layers known as <b>rank-decomposition matrices in each transformer block</b>. This ingenious technique significantly reduces the number of trainable parameters and minimizes GPU memory requirements, as gradients no longer need to be computed for the majority of model weights.
+        <br>
+        <br>
+        You can find more info here: <u><a href="https://www.linkedin.com/pulse/fine-tuning-image-to-text-algorithms-with-lora-daniel-puente-viejo" target="_blank">Linkedin article</a></u>
+        </h2>
+        </div>
+        """)
+    with gr.Row():
+            with gr.Column(scale=1):
+                img = gr.inputs.Image(label="Upload any Image", type = 'pil', optional=True)
+                button = gr.Button(value="Describe")
+            with gr.Column(scale=1):
+                out = gr.outputs.Textbox(type="text",label="Captions")
+    button.click(predict, inputs=[img], outputs=[out])
+    gr.Examples(
+        examples=examples,
+        inputs=img,
+        outputs=out,
+        fn=predict,
+        cache_examples=True,
+    )
+demo.launch(debug=True)

examples/example1.jpg ADDED Viewed

Git LFS Details

SHA256: 05767682eee8cd0259fea4c1430fc1ccff638174ef53ca4a923f9722c9c20171
Pointer size: 130 Bytes
Size of remote file: 53.5 kB

examples/example2.jpg ADDED Viewed

Git LFS Details

SHA256: dbe11e20217b3cc033df96493c82324528106af15a4bcefb25c20c0fc7f7ef75
Pointer size: 130 Bytes
Size of remote file: 62.3 kB

examples/example3.jpg ADDED Viewed

Git LFS Details

SHA256: f2f0889fc0e6e75a4f9379096a08ceb9f22208f33d0f367e3fc6304f564e2489
Pointer size: 132 Bytes
Size of remote file: 2.32 MB

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+streamlit
+transformers
+pillow
+requests
+torch
+tensorflow