|
{
|
|
"q8": {
|
|
"per_model_config": {
|
|
"decoder_with_past_model": {
|
|
"op_types": [
|
|
"Add",
|
|
"Cast",
|
|
"Concat",
|
|
"Constant",
|
|
"ConstantOfShape",
|
|
"Div",
|
|
"Equal",
|
|
"Expand",
|
|
"Gather",
|
|
"Identity",
|
|
"Less",
|
|
"MatMul",
|
|
"Mul",
|
|
"Neg",
|
|
"Pow",
|
|
"Range",
|
|
"ReduceMean",
|
|
"Reshape",
|
|
"Shape",
|
|
"Slice",
|
|
"Softmax",
|
|
"Sqrt",
|
|
"Squeeze",
|
|
"Sub",
|
|
"Tanh",
|
|
"Transpose",
|
|
"Unsqueeze",
|
|
"Where"
|
|
],
|
|
"weight_type": "QInt8"
|
|
},
|
|
"decoder_model": {
|
|
"op_types": [
|
|
"Add",
|
|
"Cast",
|
|
"Concat",
|
|
"Constant",
|
|
"ConstantOfShape",
|
|
"Div",
|
|
"Equal",
|
|
"Expand",
|
|
"Gather",
|
|
"Identity",
|
|
"Less",
|
|
"MatMul",
|
|
"Mul",
|
|
"Neg",
|
|
"Pow",
|
|
"Range",
|
|
"ReduceMean",
|
|
"Reshape",
|
|
"Shape",
|
|
"Slice",
|
|
"Softmax",
|
|
"Sqrt",
|
|
"Squeeze",
|
|
"Sub",
|
|
"Tanh",
|
|
"Transpose",
|
|
"Unsqueeze",
|
|
"Where"
|
|
],
|
|
"weight_type": "QInt8"
|
|
},
|
|
"decoder_model_merged": {
|
|
"op_types": [
|
|
"Add",
|
|
"Cast",
|
|
"Concat",
|
|
"Constant",
|
|
"ConstantOfShape",
|
|
"Div",
|
|
"Equal",
|
|
"Expand",
|
|
"Gather",
|
|
"Identity",
|
|
"If",
|
|
"Less",
|
|
"MatMul",
|
|
"Mul",
|
|
"Neg",
|
|
"Pow",
|
|
"Range",
|
|
"ReduceMean",
|
|
"Reshape",
|
|
"Shape",
|
|
"Slice",
|
|
"Softmax",
|
|
"Sqrt",
|
|
"Squeeze",
|
|
"Sub",
|
|
"Tanh",
|
|
"Transpose",
|
|
"Unsqueeze",
|
|
"Where"
|
|
],
|
|
"weight_type": "QInt8"
|
|
}
|
|
},
|
|
"per_channel": false,
|
|
"reduce_range": false
|
|
},
|
|
"int8": {
|
|
"per_model_config": {
|
|
"decoder_with_past_model": {
|
|
"op_types": [
|
|
"Add",
|
|
"Cast",
|
|
"Concat",
|
|
"Constant",
|
|
"ConstantOfShape",
|
|
"Div",
|
|
"Equal",
|
|
"Expand",
|
|
"Gather",
|
|
"Identity",
|
|
"Less",
|
|
"MatMul",
|
|
"Mul",
|
|
"Neg",
|
|
"Pow",
|
|
"Range",
|
|
"ReduceMean",
|
|
"Reshape",
|
|
"Shape",
|
|
"Slice",
|
|
"Softmax",
|
|
"Sqrt",
|
|
"Squeeze",
|
|
"Sub",
|
|
"Tanh",
|
|
"Transpose",
|
|
"Unsqueeze",
|
|
"Where"
|
|
],
|
|
"weight_type": "QInt8"
|
|
},
|
|
"decoder_model": {
|
|
"op_types": [
|
|
"Add",
|
|
"Cast",
|
|
"Concat",
|
|
"Constant",
|
|
"ConstantOfShape",
|
|
"Div",
|
|
"Equal",
|
|
"Expand",
|
|
"Gather",
|
|
"Identity",
|
|
"Less",
|
|
"MatMul",
|
|
"Mul",
|
|
"Neg",
|
|
"Pow",
|
|
"Range",
|
|
"ReduceMean",
|
|
"Reshape",
|
|
"Shape",
|
|
"Slice",
|
|
"Softmax",
|
|
"Sqrt",
|
|
"Squeeze",
|
|
"Sub",
|
|
"Tanh",
|
|
"Transpose",
|
|
"Unsqueeze",
|
|
"Where"
|
|
],
|
|
"weight_type": "QInt8"
|
|
},
|
|
"decoder_model_merged": {
|
|
"op_types": [
|
|
"Add",
|
|
"Cast",
|
|
"Concat",
|
|
"Constant",
|
|
"ConstantOfShape",
|
|
"Div",
|
|
"Equal",
|
|
"Expand",
|
|
"Gather",
|
|
"Identity",
|
|
"If",
|
|
"Less",
|
|
"MatMul",
|
|
"Mul",
|
|
"Neg",
|
|
"Pow",
|
|
"Range",
|
|
"ReduceMean",
|
|
"Reshape",
|
|
"Shape",
|
|
"Slice",
|
|
"Softmax",
|
|
"Sqrt",
|
|
"Squeeze",
|
|
"Sub",
|
|
"Tanh",
|
|
"Transpose",
|
|
"Unsqueeze",
|
|
"Where"
|
|
],
|
|
"weight_type": "QInt8"
|
|
}
|
|
},
|
|
"per_channel": false,
|
|
"reduce_range": false
|
|
},
|
|
"uint8": {
|
|
"per_model_config": {
|
|
"decoder_with_past_model": {
|
|
"op_types": [
|
|
"Add",
|
|
"Cast",
|
|
"Concat",
|
|
"Constant",
|
|
"ConstantOfShape",
|
|
"Div",
|
|
"Equal",
|
|
"Expand",
|
|
"Gather",
|
|
"Identity",
|
|
"Less",
|
|
"MatMul",
|
|
"Mul",
|
|
"Neg",
|
|
"Pow",
|
|
"Range",
|
|
"ReduceMean",
|
|
"Reshape",
|
|
"Shape",
|
|
"Slice",
|
|
"Softmax",
|
|
"Sqrt",
|
|
"Squeeze",
|
|
"Sub",
|
|
"Tanh",
|
|
"Transpose",
|
|
"Unsqueeze",
|
|
"Where"
|
|
],
|
|
"weight_type": "QUInt8"
|
|
},
|
|
"decoder_model": {
|
|
"op_types": [
|
|
"Add",
|
|
"Cast",
|
|
"Concat",
|
|
"Constant",
|
|
"ConstantOfShape",
|
|
"Div",
|
|
"Equal",
|
|
"Expand",
|
|
"Gather",
|
|
"Identity",
|
|
"Less",
|
|
"MatMul",
|
|
"Mul",
|
|
"Neg",
|
|
"Pow",
|
|
"Range",
|
|
"ReduceMean",
|
|
"Reshape",
|
|
"Shape",
|
|
"Slice",
|
|
"Softmax",
|
|
"Sqrt",
|
|
"Squeeze",
|
|
"Sub",
|
|
"Tanh",
|
|
"Transpose",
|
|
"Unsqueeze",
|
|
"Where"
|
|
],
|
|
"weight_type": "QUInt8"
|
|
},
|
|
"decoder_model_merged": {
|
|
"op_types": [
|
|
"Add",
|
|
"Cast",
|
|
"Concat",
|
|
"Constant",
|
|
"ConstantOfShape",
|
|
"Div",
|
|
"Equal",
|
|
"Expand",
|
|
"Gather",
|
|
"Identity",
|
|
"If",
|
|
"Less",
|
|
"MatMul",
|
|
"Mul",
|
|
"Neg",
|
|
"Pow",
|
|
"Range",
|
|
"ReduceMean",
|
|
"Reshape",
|
|
"Shape",
|
|
"Slice",
|
|
"Softmax",
|
|
"Sqrt",
|
|
"Squeeze",
|
|
"Sub",
|
|
"Tanh",
|
|
"Transpose",
|
|
"Unsqueeze",
|
|
"Where"
|
|
],
|
|
"weight_type": "QUInt8"
|
|
}
|
|
},
|
|
"per_channel": false,
|
|
"reduce_range": false
|
|
},
|
|
"q4": {
|
|
"block_size": 32,
|
|
"is_symmetric": true,
|
|
"accuracy_level": null
|
|
},
|
|
"bnb4": {
|
|
"block_size": 64,
|
|
"quant_type": 1
|
|
}
|
|
} |