ngocson2002
/

vivqa-model

Feature Extraction

Model card Files Files and versions Community

ngocson2002 commited on Jun 9, 2024

Commit

84b50a5

·

verified ·

1 Parent(s): eef3f34

Update README.md

Files changed (1) hide show

README.md +41 -1

README.md CHANGED Viewed

@@ -3,4 +3,44 @@ language:
 - vi
 metrics:
 - accuracy
----

 - vi
 metrics:
 - accuracy
+---
+# Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration
+✨ &ensp;[Ngoc-Son Nguyen](mailto:[email protected]), [Van-Son Nguyen](mailto:[email protected]), and [Tung Le](mailto:[email protected])\
+🏠 &ensp;University of Science, VNU-HCM
+## Installation
+```bash
+git clone https://github.com/ngocson1042002/ViVQA.git
+cd ViVQA/beit3/HCMUS
+pip install salesforce-lavis
+pip install torchscale timm underthesea efficientnet_pytorch
+pip install --upgrade transformers
+```
+## Sample inference code
+```python
+from transformers import AutoModel
+from transformers import AutoTokenizer
+from processor import Processor
+from PIL import Image
+import torch
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model = AutoModel.from_pretrained("ngocson2002/vivqa-model", trust_remote_code=True).to(device)
+processor = Processor()
+image = Image.open('./ViVQA/demo/1.jpg').convert('RGB')
+question = "màu áo của con chó là gì?"
+inputs = processor(image, question, return_tensors='pt')
+inputs["image"] = inputs["image"].unsqueeze(0)
+model.eval()
+with torch.no_grad():
+    output = model(**inputs)
+    logits = output.logits
+    idx = logits.argmax(-1).item()
+print("Predicted answer:", model.config.id2label[idx]) # prints: màu đỏ
+```