DataPilot
/

ArrowMint-Gemma3-4B-ChocoMint-code

@@ -18,182 +18,49 @@ license: gemma
 ## How to use
-このモデルは、いくつかの方法で使用できます。以下に代表的な使用例を示します。
-### 1. vLLM を使用した推論
-[vLLM](https://github.com/vllm-project/vllm) は、LLM の推論とサービングを高速化するためのライブラリです。
-```sh
-pip install vllm transformers torch accelerate
-```
 ```python
-from vllm import LLM, SamplingParams
-from transformers import AutoTokenizer
-# モデルID
-model_id = "DataPilot/ArrowMint-Gemma3-4B-ChocoMint-code"
-# Gemma 3 instruction-tuned 形式のチャットテンプレートを適用
-messages = [
-    {"role": "user", "content": "Pythonで与えられたリスト内の偶数のみを返す関数を書いてください。"},
-]
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
-# LLMのロード (Gemma 3 は trust_remote_code=True が必要な場合があります)
-# 必要に応じて tensor_parallel_size を調整してください
-llm = LLM(model=model_id, trust_remote_code=True)
-# サンプリングパラメータ
-sampling_params = SamplingParams(
-    temperature=0.1, # コード生成では少し低めの温度設定が有効な場合があります
-    top_p=0.9,
-    max_tokens=256 # 生成する最大トークン数
-)
-# 推論実行
-outputs = llm.generate(prompt, sampling_params)
-# 結果の表示
-for output in outputs:
-    generated_text = output.outputs[0].text
-    print("--- モデルの応答 ---")
-    print(generated_text)
-    print("--------------------")
-# --- モデルの応答 ---
-# def get_even_numbers(numbers):
-#   """
-#   与えられたリスト内の偶数のみをリストとして返します。
-#
-#   Args:
-#     numbers: 数値のリスト
-#
-#   Returns:
-#     偶数のみを含む新しいリスト
-#   """
-#   even_numbers = []
-#   for number in numbers:
-#     if number % 2 == 0:
-#       even_numbers.append(number)
-#   return even_numbers
-#
-# # 例:
-# my_list = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
-# evens = get_even_numbers(my_list)
-# print(f"元のリスト: {my_list}")
-# print(f"偶数のリスト: {evens}")
-# --------------------
-```
-*注意: vLLM のバージョンや環境によっては、Gemma 3 モデルのロードやチャットテンプレートの扱いに対応していない場合があります。最新の vLLM ドキュメントを参照してください。*
-### 2. Transformers を使用した推論 (テキストのみ)
-`transformers` ライブラリを使用して、テキストプロンプト（システムプロンプトを含む）からテキストを生成します。
-```sh
-pip install transformers torch accelerate bitsandbytes # bitsandbytes は量子化に必要
-```
-```python
-from transformers import AutoTokenizer, Gemma3ForConditionalGeneration
 import torch
-# モデルID
 model_id = "DataPilot/ArrowMint-Gemma3-4B-ChocoMint-code"
-# 利用可能なデバイスを設定 (GPUがあれば "cuda", なければ "cpu")
-device = "cuda" if torch.cuda.is_available() else "cpu"
-# トークナイザーとモデルのロード
-# Gemma 3 は bfloat16 を推奨。メモリが少ない場合は 4bit 量子化を試す (load_in_4bit=True)
-tokenizer = AutoTokenizer.from_pretrained(model_id)
 model = Gemma3ForConditionalGeneration.from_pretrained(
-    model_id,
-    torch_dtype=torch.bfloat16, # または torch.float16
-    device_map="auto", # 自動でデバイス割り当て (GPU推奨)
-    # load_in_4bit=True, # メモリ削減のために4bit量子化する場合
-)
-# チャット形式のプロンプト (システムプロンプトで役割を指定)
 messages = [
-    {"role": "system", "content": "あなたは熟練したソフトウェアエンジニアとして振る舞うAIアシスタントです。"},
-    {"role": "user", "content": "JavaScriptで、配列内の重複する要素を削除する効率的な方法を教えてください。"},
 ]
-# プロンプトをモデル入力形式に変換
-# Gemma 3 instruction-tuned モデルでは add_generation_prompt=True が重要
-inputs = tokenizer.apply_chat_template(
-    messages,
-    tokenize=True,
-    add_generation_prompt=True,
-    return_tensors="pt"
-).to(model.device) # モデルと同じデバイスに配置
-# 推論の実行
-outputs = model.generate(
-    inputs,
-    max_new_tokens=512, # 生成する最大トークン数
-    do_sample=True,
-    temperature=0.7,
-    top_p=0.95,
-)
-# 生成されたテキストのみをデコード
-# プロンプト部分を除いてデコード
-input_len = inputs.shape[-1]
-response = tokenizer.decode(outputs[0][input_len:], skip_special_tokens=True)
-print("--- モデルの応答 ---")
-print(response)
-print("--------------------")
-# --- モデルの応答 ---
-# JavaScriptで配列から重複する要素を削除する効率的な方法はいくつかありますが、`Set`オブジェクトを使うのが最も簡潔で推奨される方法の一つです。`Set`は一意の値しか保持しないコレクションです。
-#
-# ```javascript
-# function removeDuplicates(arr) {
-#   // Setオブジェクトに配列を渡すと、重複が自動的に削除されます。
-#   // その後、スプレッド構文(...)またはArray.from()を使ってSetを新しい配列に変換します。
-#   return [...new Set(arr)];
-# }
-#
-# // 使用例
-# const myArray = [1, 2, 'a', 3, 'b', 2, 4, 'a', 5];
-# const uniqueArray = removeDuplicates(myArray);
-#
-# console.log("元の配列:", myArray); // -> [1, 2, 'a', 3, 'b', 2, 4, 'a', 5]
-# console.log("重複削除後の配列:", uniqueArray); // -> [1, 2, 'a', 3, 'b', 4, 5]
-# ```
-#
-# **他の方法:**
-#
-# 1.  **`filter()` と `indexOf()`:**
-#     ```javascript
-#     function removeDuplicatesFilter(arr) {
-#       return arr.filter((item, index) => arr.indexOf(item) === index);
-#     }
-#     ```
-#     この方法は、配列の各要素に対して`indexOf`を呼び出すため、大きな配列では`Set`を使う方法よりもパフォーマンスが劣る可能性があります。
-#
-# 2.  **`reduce()`:**
-#     ```javascript
-#     function removeDuplicatesReduce(arr) {
-#       return arr.reduce((acc, current) => {
-#         if (!acc.includes(current)) {
-#           acc.push(current);
-#         }
-#         return acc;
-#       }, []);
-#     }
-#     ```
-#     この方法も`includes`が内部的にループするため、大きな配列では効率が良くありません。
-#
-# **結論:**
-#
-# ほとんどの場合、**`Set`を使用する方法が最も効率的で読みやすい**ため、推奨されます。
-# --------------------
 ```
 ## License

 ## How to use
+このモデルは以下の方法で使えます。
 ```python
+# pip install accelerate
+# pip install -U transformers
+from transformers import AutoProcessor, Gemma3ForConditionalGeneration
 import torch
 model_id = "DataPilot/ArrowMint-Gemma3-4B-ChocoMint-code"
 model = Gemma3ForConditionalGeneration.from_pretrained(
+    model_id, device_map="auto"
+).eval()
+processor = AutoProcessor.from_pretrained(model_id)
 messages = [
+    {
+        "role": "system",
+        "content": [{"type": "text", "text": "あなたは素晴らしいアシスタントです。"}]
+    },
+    {
+        "role": "user",
+        "content": [
+            {"type": "text", "text": "strawberryのRを数えるコードをPythonで考えてください。"}
+        ]
+    }
 ]
+inputs = processor.apply_chat_template(
+    messages, add_generation_prompt=True, tokenize=True,
+    return_dict=True, return_tensors="pt"
+).to(model.device, dtype=torch.bfloat16)
+input_len = inputs["input_ids"].shape[-1]
+with torch.inference_mode():
+    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
+    generation = generation[0][input_len:]
+decoded = processor.decode(generation, skip_special_tokens=True)
+print(decoded)
 ```
 ## License