Error When trying to load the model with text-generation-inference

#4
by mdpi-ai - opened

When trying to load this model using hugging face text-generation-inference docker image v1.4.2, I get the following error.

my parameters for TGI look like this
model_id: "Qwen/Qwen2-VL-72B-Instruct-AWQ"
num_shard: 1
cuda_memory_fraction: 1
max_top_n_tokens: 30
enable_cuda_graphs: true
cuda_visible_devices: 1
hf_token: ''
rope_scaling: 'dynamic'
rope_factor: 1
quantization: 'awq'

โ”‚ 370 โ”‚ โ”‚ """ โ”‚
โ”‚ โฑ 371 โ”‚ โ”‚ return self.weights_loader.get_weights_col_packed(self, prefix โ”‚
โ”‚ 372 โ”‚ โ”‚
โ”‚ 373 โ”‚ def get_weights_col(self, prefix: str): โ”‚
โ”‚ 374 โ”‚ โ”‚ return self.weights_loader.get_weights_col(self, prefix) โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ block_sizes = [16, 16, 16] โ”‚ โ”‚
โ”‚ โ”‚ prefix = 'visual.blocks.0.attn.qkv' โ”‚ โ”‚
โ”‚ โ”‚ self = <text_generation_server.utils.weights.Weights object at โ”‚ โ”‚
โ”‚ โ”‚ 0x7f8c7d7b4590> โ”‚ โ”‚
โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚
โ”‚ โ”‚
โ”‚ /opt/conda/lib/python3.11/site-packages/text_generation_server/layers/marlin โ”‚
โ”‚ /gptq.py:117 in get_weights_col_packed โ”‚
โ”‚ โ”‚
โ”‚ 114 โ”‚ โ”‚ โ”‚ โ”‚ f"{prefix}.qweight", dim=1, block_sizes=block_sizes โ”‚
โ”‚ 115 โ”‚ โ”‚ โ”‚ ) โ”‚
โ”‚ 116 โ”‚ โ”‚ except RuntimeError: โ”‚
โ”‚ โฑ 117 โ”‚ โ”‚ โ”‚ raise RuntimeError( โ”‚
โ”‚ 118 โ”‚ โ”‚ โ”‚ โ”‚ f"Cannot load {self.quantize} weight, make sure the โ”‚
โ”‚ 119 โ”‚ โ”‚ โ”‚ ) โ”‚
โ”‚ 120 โ”‚ โ”‚ scales = weights.get_packed_sharded( โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ block_sizes = [16, 16, 16] โ”‚ โ”‚
โ”‚ โ”‚ prefix = 'visual.blocks.0.attn.qkv' โ”‚ โ”‚
โ”‚ โ”‚ self = <text_generation_server.layers.marlin.gptq.GPTQMarlinWeigโ€ฆ โ”‚ โ”‚
โ”‚ โ”‚ object at 0x7f8c7d9238d0> โ”‚ โ”‚
โ”‚ โ”‚ weights = <text_generation_server.utils.weights.Weights object at โ”‚ โ”‚
โ”‚ โ”‚ 0x7f8c7d7b4590> โ”‚ โ”‚
โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚
โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ
RuntimeError: Cannot load awq weight, make sure the model is already
quantized. rank=0
2024-12-02T20:51:14.220341Z ERROR text_generation_launcher: Shard 0 failed to start

Sign up or log in to comment