84basi
/

llm-jp-3-13b-finetune-2.1

@@ -21,109 +21,34 @@ This llama model was trained 2x faster with [Unsloth](https://github.com/unsloth
 [<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth)
-!pip uninstall unsloth -y
-!pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
-!pip install --upgrade torch
-!pip install --upgrade xformers
-!pip install ipywidgets --upgrade
-import torch
-if torch.cuda.get_device_capability()[0] >= 8:
-    !pip install --no-deps packaging ninja einops "flash-attn>=2.6.3"
-from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
 from unsloth import FastLanguageModel
 import torch
-max_seq_length = 512
 dtype = None
 load_in_4bit = True
-model_id = "llm-jp/llm-jp-3-13b"
-new_model_id = "llm-jp-3-13b-finetune-2"
 model, tokenizer = FastLanguageModel.from_pretrained(
-    model_name=model_id,
-    dtype=dtype,
-    load_in_4bit=load_in_4bit,
-    trust_remote_code=True,
-)
-model = FastLanguageModel.get_peft_model(
-    model,
-    r = 32,
-    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
-                      "gate_proj", "up_proj", "down_proj",],
-    lora_alpha = 32,
-    lora_dropout = 0.05,
-    bias = "none",
-    use_gradient_checkpointing = "unsloth",
-    random_state = 3407,
-    use_rslora = False,
-    loftq_config = None,
-    max_seq_length = max_seq_length,
-)
-HF_TOKEN = "" #@param {type:"string"}
-from datasets import load_dataset
-dataset = load_dataset("json", data_files="/content/ichikara-instruction-003-001-1.json")
-prompt = """### 指示
-{}
-### 回答
-{}"""
-"""
-formatting_prompts_func: 各データをプロンプトに合わせた形式に合わせる
-"""
-EOS_TOKEN = tokenizer.eos_token
-def formatting_prompts_func(examples):
-    input = examples["text"]
-    output = examples["output"]
-    text = prompt.format(input, output) + EOS_TOKEN
-    return { "formatted_text" : text, }
-pass
-dataset = dataset.map(
-    formatting_prompts_func,
-    num_proc= 4,
-)
-from trl import SFTTrainer
-from transformers import TrainingArguments
-from unsloth import is_bfloat16_supported
-trainer = SFTTrainer(
-    model = model,
-    tokenizer = tokenizer,
-    train_dataset=dataset["train"],
     max_seq_length = max_seq_length,
-    dataset_text_field="formatted_text",
-    packing = False,
-    args = TrainingArguments(
-        per_device_train_batch_size = 2,
-        gradient_accumulation_steps = 4,
-        num_train_epochs = 1,
-        logging_steps = 10,
-        warmup_steps = 10,
-        save_steps=100,
-        save_total_limit=2,
-        max_steps=-1,
-        learning_rate = 2e-4,
-        fp16 = not is_bfloat16_supported(),
-        bf16 = is_bfloat16_supported(),
-        group_by_length=True,
-        seed = 3407,
-        output_dir = "outputs",
-        report_to = "none",
-    ),
 )
-trainer_stats = trainer.train()
-import json
 datasets = []
-with open("/content/elyza-tasks-100-TV_0.jsonl", "r") as f:
     item = ""
     for line in f:
       line = line.strip()
@@ -134,22 +59,83 @@ with open("/content/elyza-tasks-100-TV_0.jsonl", "r") as f:
 from tqdm import tqdm
-FastLanguageModel.for_inference(model)
 results = []
 for dt in tqdm(datasets):
   input = dt["input"]
   prompt = f"""### 指示\n{input}\n### 回答\n"""
   inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)
   outputs = model.generate(**inputs, max_new_tokens = 512, use_cache = True, do_sample=False, repetition_penalty=1.2)
   prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
   results.append({"task_id": dt["task_id"], "input": input, "output": prediction})
-with open(f"{new_model_id}_output.jsonl", 'w', encoding='utf-8') as f:
     for result in results:
         json.dump(result, f, ensure_ascii=False)
         f.write('\n')

 [<img src="https://raw.githubusercontent.com/unslothai/unsloth/main/images/unsloth%20made%20with%20love.png" width="200"/>](https://github.com/unslothai/unsloth)
+```python
+%%capture
+!pip install unsloth
+!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
 from unsloth import FastLanguageModel
 import torch
+import json
+model_name = "84basi/llm-jp-3-13b-finetune-2.1"
+token = "Hugging Face Token" #@param {type:"string"}
+max_seq_length = 2048
 dtype = None
 load_in_4bit = True
 model, tokenizer = FastLanguageModel.from_pretrained(
+    model_name = model_name,
     max_seq_length = max_seq_length,
+    dtype = dtype,
+    load_in_4bit = load_in_4bit,
+    token = token,
 )
+FastLanguageModel.for_inference(model)
 datasets = []
+with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
     item = ""
     for line in f:
       line = line.strip()
 from tqdm import tqdm
 results = []
 for dt in tqdm(datasets):
   input = dt["input"]
   prompt = f"""### 指示\n{input}\n### 回答\n"""
   inputs = tokenizer([prompt], return_tensors = "pt").to(model.device)
   outputs = model.generate(**inputs, max_new_tokens = 512, use_cache = True, do_sample=False, repetition_penalty=1.2)
   prediction = tokenizer.decode(outputs[0], skip_special_tokens=True).split('\n### 回答')[-1]
   results.append({"task_id": dt["task_id"], "input": input, "output": prediction})
+with open(f"/content/llm-jp-3-13b-finetune-2.1_output-2.jsonl", 'w', encoding='utf-8') as f:
     for result in results:
         json.dump(result, f, ensure_ascii=False)
         f.write('\n')
+!pip install python-docx
+import json
+from docx import Document  # pip install python-docxでインストールする
+from docx.shared import Inches, Pt, RGBColor
+from docx.enum.text import WD_ALIGN_PARAGRAPH
+def read_jsonl_data(jsonl_path):
+    """
+    提出用jsonlを読み、json形式で返す
+    Args:
+        jsonl_path (str): 提出用jsonlへのパス
+    Returns:
+        jsonデータ (list of dict)
+    """
+    results = []
+    with open(jsonl_path, 'r', encoding='utf-8') as f:
+        for line in f:
+            line = line.strip()
+            if line:
+                try:
+                    results.append(json.loads(line))
+                except json.JSONDecodeError as e:
+                    print(f"JSONデコードエラー（行内容を確認してください）: {e}")
+    return results
+def json_to_word(json_data, output_file):
+    """
+    JSONデータをWord文書に変換する
+    Args:
+        json_data (list of dict): JSONデータのリスト
+        output_file (str): 出力するWordファイルの名前
+    """
+    doc = Document()
+    title = doc.add_heading('LLM Output Analysis', 0)
+    title.alignment = WD_ALIGN_PARAGRAPH.CENTER
+    for item in json_data:
+        task_id = item.get("task_id", "No Task ID")
+        doc.add_heading(f'Task ID: {task_id}', level=1)
+        doc.add_heading('Input:', level=2)
+        input_text = item.get("input", "No Input")
+        input_para = doc.add_paragraph()
+        input_para.add_run(input_text).bold = False
+        doc.add_heading('Output:', level=2)
+        output_text = item.get("output", "No Output")
+        output_para = doc.add_paragraph()
+        output_para.add_run(output_text).bold = False
+        doc.add_paragraph('=' * 50)
+    doc.save(output_file)
+jsonl_path = '/content/llm-jp-3-13b-finetune-2.1_output-2.jsonl'
+output_file = '/content/llm-jp-3-13b-finetune-2.1_output-2.docx'
+jsonl_data = read_jsonl_data(jsonl_path)
+json_to_word(jsonl_data, output_file)
+```