OpenGVLab
/

InternVL3-2B-Instruct

@@ -195,14 +195,15 @@ model = AutoModel.from_pretrained(
 ```python
 import torch
-from transformers import AutoTokenizer, AutoModel
 path = "OpenGVLab/InternVL3-2B"
 model = AutoModel.from_pretrained(
     path,
     torch_dtype=torch.bfloat16,
-    load_in_8bit=True,
     low_cpu_mem_usage=True,
     use_flash_attn=True,
     trust_remote_code=True).eval()
 ```
@@ -262,7 +263,7 @@ import torchvision.transforms as T
 from decord import VideoReader, cpu
 from PIL import Image
 from torchvision.transforms.functional import InterpolationMode
-from transformers import AutoModel, AutoTokenizer
 IMAGENET_MEAN = (0.485, 0.456, 0.406)
 IMAGENET_STD = (0.229, 0.224, 0.225)
@@ -368,10 +369,11 @@ def split_model(model_name):
 # If you set `load_in_8bit=False`, you will need at least three 80GB GPUs.
 path = 'OpenGVLab/InternVL3-2B'
 device_map = split_model('InternVL3-2B')
 model = AutoModel.from_pretrained(
     path,
     torch_dtype=torch.bfloat16,
-    load_in_8bit=False,
     low_cpu_mem_usage=True,
     use_flash_attn=True,
     trust_remote_code=True,

 ```python
 import torch
+from transformers import AutoTokenizer, AutoModel, BitsAndBytesConfig
 path = "OpenGVLab/InternVL3-2B"
+quant_config = BitsAndBytesConfig(load_in_8bit=True)
 model = AutoModel.from_pretrained(
     path,
     torch_dtype=torch.bfloat16,
     low_cpu_mem_usage=True,
     use_flash_attn=True,
+    quantization_config = quant_config,
     trust_remote_code=True).eval()
 ```
 from decord import VideoReader, cpu
 from PIL import Image
 from torchvision.transforms.functional import InterpolationMode
+from transformers import AutoModel, AutoTokenizer, BitsAndBytesConfig
 IMAGENET_MEAN = (0.485, 0.456, 0.406)
 IMAGENET_STD = (0.229, 0.224, 0.225)
 # If you set `load_in_8bit=False`, you will need at least three 80GB GPUs.
 path = 'OpenGVLab/InternVL3-2B'
 device_map = split_model('InternVL3-2B')
+quant_config = BitsAndBytesConfig(load_in_8bit=False)
 model = AutoModel.from_pretrained(
     path,
     torch_dtype=torch.bfloat16,
+    quantization_config = quant_config,
     low_cpu_mem_usage=True,
     use_flash_attn=True,
     trust_remote_code=True,