from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests

# url = 'http://images.cocodataset.org/val2017/000000039769.jpg'

url = 'https://cdn-s-www.leprogres.fr/images/E86C9616-1371-4B3A-9CF8-05A2D891D0A3/NW_detail_M/comme-on-peut-le-voir-le-multipla-de-premiere-generation-est-la-copie-conforme-du-multipla-concept-deux-phares-sont-loges-dans-le-bandeau-sous-le-parebrise-photo-fiat-1664781478.jpg'
image = Image.open(requests.get(url, stream=True).raw)

# from IPython.display import Image
image.show()
feature_extractor = ViTFeatureExtractor.from_pretrained(
    'google/vit-base-patch16-224')
model = ViTForImageClassification.from_pretrained(
    'google/vit-base-patch16-224')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])