Spaces:

somosnlp
/

SpanishMedicaLLM

Runtime error

App Files Files Community

inoid commited on Mar 29, 2024

Commit

2158f85

1 Parent(s): 496d856

Use environement variables with os.environ function

Browse files

Files changed (2) hide show

app.py +1 -0
spanish_medica_llm.py +3 -4

app.py CHANGED Viewed

@@ -40,6 +40,7 @@ def evaluate_model():
     return(f"Evaluate Model {os.environ.get('HF_LLM_MODEL_ID')} from dataset {os.environ.get('HF_LLM_DATASET_ID')}")
 def train_model(*inputs):
     if "IS_SHARED_UI" in os.environ:
         raise gr.Error("This Space only works in duplicated instances")

     return(f"Evaluate Model {os.environ.get('HF_LLM_MODEL_ID')} from dataset {os.environ.get('HF_LLM_DATASET_ID')}")
 def train_model(*inputs):
     if "IS_SHARED_UI" in os.environ:
         raise gr.Error("This Space only works in duplicated instances")

spanish_medica_llm.py CHANGED Viewed

@@ -25,7 +25,7 @@ from transformers import (
 from accelerate import FullyShardedDataParallelPlugin, Accelerator
 from torch.distributed.fsdp.fully_sharded_data_parallel import FullOptimStateDictConfig, FullStateDictConfig
 from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
-import wandb
 from trl import SFTTrainer
 from huggingface_hub import login
@@ -504,7 +504,7 @@ def configAndRunTraining(basemodel, dataset, eval_dataset, tokenizer):
                 push_to_hub = True,
                 hub_private_repo = False,
                 hub_model_id = HUB_MODEL_ID,
-                warmup_steps  =5,
                 per_device_train_batch_size = MICRO_BATCH_SIZE,
                 per_device_eval_batch_size=1,
                 #gradient_checkpointing=True,
@@ -518,8 +518,7 @@ def configAndRunTraining(basemodel, dataset, eval_dataset, tokenizer):
                 save_steps = 50,                # Save checkpoints every 50 steps
                 evaluation_strategy = "steps", # Evaluate the model every logging step
                 eval_steps = 50,               # Evaluate and save checkpoints every 50 steps
-                do_eval = True,                # Perform evaluation at the end of training
-                #report_to="wandb",           # Comment this out if you don't want to use weights & baises
                 run_name=f"{run_name}-{datetime.now().strftime('%Y-%m-%d-%H-%M')}" ,         # Name of the W&B run (optional)
                 fp16=True,  #Set for GPU T4 for more powerful GPU as G-100 or another change to false and bf16 parameter
                 bf16=False

 from accelerate import FullyShardedDataParallelPlugin, Accelerator
 from torch.distributed.fsdp.fully_sharded_data_parallel import FullOptimStateDictConfig, FullStateDictConfig
 from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
+#import wandb
 from trl import SFTTrainer
 from huggingface_hub import login
                 push_to_hub = True,
                 hub_private_repo = False,
                 hub_model_id = HUB_MODEL_ID,
+                warmup_steps = 5,
                 per_device_train_batch_size = MICRO_BATCH_SIZE,
                 per_device_eval_batch_size=1,
                 #gradient_checkpointing=True,
                 save_steps = 50,                # Save checkpoints every 50 steps
                 evaluation_strategy = "steps", # Evaluate the model every logging step
                 eval_steps = 50,               # Evaluate and save checkpoints every 50 steps
+                do_eval = True,                # Perform evaluation at the end of training
                 run_name=f"{run_name}-{datetime.now().strftime('%Y-%m-%d-%H-%M')}" ,         # Name of the W&B run (optional)
                 fp16=True,  #Set for GPU T4 for more powerful GPU as G-100 or another change to false and bf16 parameter
                 bf16=False