metadata

license: apache-2.0

ViT Fine-tuned on Stanford Car Dataset

Base model: https://huggingface.co/google/vit-base-patch16-224

This achieves around 82% on the testing set

Dataset Description:

The Stanford car dataset contains 16,185 images of 196 classes of cars. The data is split into 8,144 training images, 6,041 testing images, and 2000 validation images.

Citations: 3D Object Representations for Fine-Grained Categorization Jonathan Krause, Michael Stark, Jia Deng, Li Fei-Fei 4th IEEE Workshop on 3D Representation and Recognition, at ICCV 2013 (3dRR-13). Sydney, Australia. Dec. 8, 2013.