datnguyentien204
/

BLIP

datnguyentien204 commited on May 2, 2024

Commit

2117908

verified ·

1 Parent(s): 8f0ab51

d16909ba7788f34f26090a924304028c807d03bbcb38c496b65d34ff2e560d85

Files changed (3) hide show

visual_genome.ipynb ADDED Viewed

+{
+ "cells": [
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "id": "initial_id",
+   "metadata": {
+    "collapsed": true
+   },
+   "outputs": [],
+   "source": [
+    "import matplotlib.pyplot as plt\n",
+    "from matplotlib.patches import Rectangle\n",
+    "from src import api as vg\n",
+    "from PIL import Image as PIL_Image\n",
+    "import requests\n",
+    "from StringIO import StringIO"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "codemirror_mode": {
+    "name": "ipython",
+    "version": 2
+   },
+   "file_extension": ".py",
+   "mimetype": "text/x-python",
+   "name": "python",
+   "nbconvert_exporter": "python",
+   "pygments_lexer": "ipython2",
+   "version": "2.7.6"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}

vqg_pred.py ADDED Viewed

+from PIL import Image
+import requests
+import torch
+from torchvision import transforms
+from torchvision.transforms.functional import InterpolationMode
+from lzma import FILTER_LZMA1
+try:
+    from _lzma import *
+    from _lzma import _encode_filter_properties, _decode_filter_properties
+except ImportError:
+    from backports.lzma import *
+    from backports.lzma import _encode_filter_properties, _decode_filter_properties
+device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+def load_demo_image(image_size, device):
+    img_url = 'https://storage.googleapis.com/sfr-vision-language-research/BLIP/demo.jpg'
+    raw_image = Image.open(requests.get(img_url, stream=True).raw).convert('RGB')
+    w, h = raw_image.size
+    print(raw_image.resize((w // 5, h // 5)))
+    transform = transforms.Compose([
+        transforms.Resize((image_size, image_size), interpolation=InterpolationMode.BICUBIC),
+        transforms.ToTensor(),
+        transforms.Normalize((0.48145466, 0.4578275, 0.40821073), (0.26862954, 0.26130258, 0.27577711))
+    ])
+    image = transform(raw_image).unsqueeze(0).to(device)
+    return image

weights/model_base_vqa_capfilt_large.pth ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a7d546209f1ccfa8b3cd3a0138c53e0d1e95e4a4bc280bef8f67e20fe4925ae
+size 1446244375