Spaces:

shorecode
/

gradio-3

Sleeping

Kevin Fink commited on Dec 5, 2024

Commit

e2f4c27

1 Parent(s): f4325ab

init

Files changed (1) hide show

app.py CHANGED Viewed

@@ -26,7 +26,7 @@ def fine_tune_model(model_name, dataset_name, hub_id, api_key, num_epochs, batch
         model = get_peft_model(model, lora_config)
         tokenizer = AutoTokenizer.from_pretrained(model_name)
-        max_length = 64
         try:
             tokenized_train_dataset = load_from_disk(f'{hub_id.strip()}_train_dataset')
             tokenized_test_dataset = load_from_disk(f'{hub_id.strip()}_test_dataset')
@@ -56,7 +56,7 @@ def fine_tune_model(model_name, dataset_name, hub_id, api_key, num_epochs, batch
                 model_inputs["labels"] = labels["input_ids"]
                 return model_inputs
-            tokenized_datasets = dataset.map(tokenize_function, batched=True)
             tokenized_datasets['train'].save_to_disk(f'{hub_id.strip()}_train_dataset')
             tokenized_datasets['validation'].save_to_disk(f'{hub_id.strip()}_test_dataset')

         model = get_peft_model(model, lora_config)
         tokenizer = AutoTokenizer.from_pretrained(model_name)
+        max_length = 128
         try:
             tokenized_train_dataset = load_from_disk(f'{hub_id.strip()}_train_dataset')
             tokenized_test_dataset = load_from_disk(f'{hub_id.strip()}_test_dataset')
                 model_inputs["labels"] = labels["input_ids"]
                 return model_inputs
+            tokenized_datasets = dataset.map(tokenize_function, batched=True, batch_size=32)
             tokenized_datasets['train'].save_to_disk(f'{hub_id.strip()}_train_dataset')
             tokenized_datasets['validation'].save_to_disk(f'{hub_id.strip()}_test_dataset')