Improved ONNX models (#2)

Files changed (12) hide show

README.md CHANGED Viewed

@@ -1,5 +1,9 @@
 ---
 pipeline_tag: text-generation
 ---
 ## Usage
@@ -41,8 +45,7 @@ past_key_values = {
     for kv in ('key', 'value')
 }
 input_ids = inputs['input_ids']
-attention_mask = inputs['attention_mask']
-position_ids = np.cumsum(inputs['attention_mask'], axis=-1)
 # 3. Generation loop
 max_new_tokens = 1024
@@ -50,14 +53,12 @@ generated_tokens = np.array([[]], dtype=np.int64)
 for i in range(max_new_tokens):
   logits, *present_key_values = decoder_session.run(None, dict(
       input_ids=input_ids,
-      attention_mask=attention_mask,
       position_ids=position_ids,
       **past_key_values,
   ))
   ## Update values for next generation loop
   input_ids = logits[:, -1].argmax(-1, keepdims=True)
-  attention_mask = np.ones_like(input_ids)
   position_ids = position_ids[:, -1:] + 1
   for j, key in enumerate(past_key_values):
     past_key_values[key] = present_key_values[j]
@@ -145,5 +146,4 @@ const messages = [
 // Generate a response
 const output = await generator(messages, { max_new_tokens: 512, do_sample: false });
 console.log(output[0].generated_text.at(-1).content);
-```

 ---
 pipeline_tag: text-generation
+base_model:
+- google/gemma-3-1b-it
+library_name: transformers.js
+license: gemma
 ---
 ## Usage
     for kv in ('key', 'value')
 }
 input_ids = inputs['input_ids']
+position_ids = np.tile(np.arange(1, input_ids.shape[-1] + 1), (batch_size, 1))
 # 3. Generation loop
 max_new_tokens = 1024
 for i in range(max_new_tokens):
   logits, *present_key_values = decoder_session.run(None, dict(
       input_ids=input_ids,
       position_ids=position_ids,
       **past_key_values,
   ))
   ## Update values for next generation loop
   input_ids = logits[:, -1].argmax(-1, keepdims=True)
   position_ids = position_ids[:, -1:] + 1
   for j, key in enumerate(past_key_values):
     past_key_values[key] = present_key_values[j]
 // Generate a response
 const output = await generator(messages, { max_new_tokens: 512, do_sample: false });
 console.log(output[0].generated_text.at(-1).content);
+```

config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_attn_implementation_autoset": true,
-  "_name_or_path": "gg-hf-g/gemma-3-1b-it",
   "architectures": [
     "Gemma3ForCausalLM"
   ],
@@ -9,7 +9,10 @@
   "attn_logit_softcapping": null,
   "bos_token_id": 2,
   "cache_implementation": "hybrid",
-  "eos_token_id": 1,
   "final_logit_softcapping": null,
   "head_dim": 256,
   "hidden_activation": "gelu_pytorch_tanh",

 {
   "_attn_implementation_autoset": true,
+  "_name_or_path": "google/gemma-3-1b-it",
   "architectures": [
     "Gemma3ForCausalLM"
   ],
   "attn_logit_softcapping": null,
   "bos_token_id": 2,
   "cache_implementation": "hybrid",
+  "eos_token_id": [
+    1,
+    106
+  ],
   "final_logit_softcapping": null,
   "head_dim": 256,
   "hidden_activation": "gelu_pytorch_tanh",

generation_config.json CHANGED Viewed

@@ -2,7 +2,10 @@
   "_from_model_config": true,
   "bos_token_id": 2,
   "cache_implementation": "hybrid",
-  "eos_token_id": [1, 106],
   "pad_token_id": 0,
   "transformers_version": "4.50.0.dev0"
 }

   "_from_model_config": true,
   "bos_token_id": 2,
   "cache_implementation": "hybrid",
+  "eos_token_id": [
+    1,
+    106
+  ],
   "pad_token_id": 0,
   "transformers_version": "4.50.0.dev0"
 }

onnx/model.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19fe4f234ac17c6a6fbd3e322684bb3ee4165f440853844ec9411fa4730c4c00
-size 1011486

 version https://git-lfs.github.com/spec/v1
+oid sha256:fcdd6cc5892fb4f3ea04b423657561b437239b37ab963b85bebae4532081a16f
+size 1012725

onnx/model_bnb4.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:89fae7cf5013bb962435a439de89cc8197cf02f2a9fe0cf17ac49c9c47f7ad71
-size 1602006422

 version https://git-lfs.github.com/spec/v1
+oid sha256:f261e3a3b222e3110bd7d07f1a24d3bdcade389df85d163f11c82cfa1182b700
+size 1602007661

onnx/model_fp16.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0741cbf360a59a17fb9b3fa63cec131b63d8dd67b38981edf62526629e6e85e1
-size 2000773554

 version https://git-lfs.github.com/spec/v1
+oid sha256:7278853fe0e9babcdaad178c2d91aff09830b510a9ca88317634f0ef8194d19e
+size 2000774696

onnx/model_int8.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cde6cb8cb849399b8987d7cd61a58f2ee9c9d975d25fc2a750a0750e1ee7eb2d
-size 1001480743

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d8ddeb9c637d43625df45933ad3a9e2337b8a027ab37a70dc230735ba285f5c
+size 1001481982

onnx/model_q4.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a655309bd32bd81724ee97ed6c90d46adbe2bf294db318221d922cd4d9f98b54
-size 1645615026

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd65478ade20f0bea7ed1e80455e3b3b6eb6f4242d611d63e7bcddc94cc0f108
+size 1645616265

onnx/model_q4f16.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:094885406e076227cda9f3d00c7b62e8fb5e746bfb9e279457aa272ea69bae88
-size 997768167

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a8cb5ab287f04050d29de31e47354f8868069c0dec8cab326376274a6a12508
+size 997769309

onnx/model_quantized.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cde6cb8cb849399b8987d7cd61a58f2ee9c9d975d25fc2a750a0750e1ee7eb2d
-size 1001480743

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d8ddeb9c637d43625df45933ad3a9e2337b8a027ab37a70dc230735ba285f5c
+size 1001481982

onnx/model_uint8.onnx CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71c0ea2b023207970e7e516f0644433a6a5c72c47fecb515b0e5068b3e9d81f0
-size 1001480839

 version https://git-lfs.github.com/spec/v1
+oid sha256:714ab717b4840136b736a3a288f853ac9386751f33c2edd8a753086530cf9dbc
+size 1001482078

tokenizer_config.json CHANGED Viewed

@@ -51337,7 +51337,6 @@
   "image_token": "<image_soft_token>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
-  "processor_class": "Gemma3Processor",
   "sp_model_kwargs": null,
   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",

   "image_token": "<image_soft_token>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "sp_model_kwargs": null,
   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",