Spaces:

shorecode
/

gradio-3

Sleeping

App Files Files Community

Kevin Fink commited on Dec 8, 2024

Commit

b6a7390

1 Parent(s): 7f8fbf8

dev

Browse files

Files changed (1) hide show

app.py +16 -10

app.py CHANGED Viewed

@@ -103,7 +103,7 @@ def fine_tune_model(model, dataset_name, hub_id, api_key, num_epochs, batch_size
             # Setup the decoder input IDs (shifted right)
             labels = tokenizer(
                 examples['target'],
-                max_length=max_length,  # Set to None for dynamic padding
                 truncation=True,
                 padding='max_length',
                 #text_target=examples['target'],
@@ -140,7 +140,8 @@ def fine_tune_model(model, dataset_name, hub_id, api_key, num_epochs, batch_size
             elif os.access(f'/data/{hub_id.strip()}_train_dataset3', os.R_OK):
                 dataset = load_dataset(dataset_name.strip())
-                dataset['test'] = dataset['test'].select(range(700))
                 del dataset['train']
                 del dataset['validation']
                 test_set = dataset.map(tokenize_function, batched=True, batch_size=50, remove_columns=column_names,)
@@ -150,6 +151,7 @@ def fine_tune_model(model, dataset_name, hub_id, api_key, num_epochs, batch_size
             elif os.access(f'/data/{hub_id.strip()}_validation_dataset', os.R_OK):
                 dataset = load_dataset(dataset_name.strip())
                 dataset['train'] = dataset['train'].select(range(8000))
                 train_size = len(dataset['train'])
                 third_size = train_size // 3
                 del dataset['test']
@@ -167,8 +169,10 @@ def fine_tune_model(model, dataset_name, hub_id, api_key, num_epochs, batch_size
             if os.access(f'/data/{hub_id.strip()}_train_dataset', os.R_OK) and not os.access(f'/data/{hub_id.strip()}_train_dataset3', os.R_OK):
                 dataset = load_dataset(dataset_name.strip())
-                dataset['train'] = dataset['train'].select(range(8000))
-                dataset['validation'] = dataset['validation'].select(range(300))
                 train_size = len(dataset['train'])
                 third_size = train_size // 3
                 second_third = dataset['train'].select(range(third_size, third_size*2))
@@ -183,7 +187,8 @@ def fine_tune_model(model, dataset_name, hub_id, api_key, num_epochs, batch_size
         except Exception as e:
             print(f"An error occurred: {str(e)}, TB: {traceback.format_exc()}")
             dataset = load_dataset(dataset_name.strip())
-            dataset['train'] = dataset['train'].select(range(8000))
             train_size = len(dataset['train'])
             third_size = train_size // 3
             # Tokenize the dataset
@@ -198,11 +203,12 @@ def fine_tune_model(model, dataset_name, hub_id, api_key, num_epochs, batch_size
             return 'RUN AGAIN TO LOAD REST OF DATA'
         # Fine-tune the model
-        if os.path.exists(training_args.output_dir) and os.listdir(training_args.output_dir):
-            train_result = trainer.train(resume_from_checkpoint=True)
-        else:
-            train_result = trainer.train()
-        trainer.push_to_hub(commit_message="Training complete!")
     except Exception as e:
         return f"An error occurred: {str(e)}, TB: {traceback.format_exc()}"
     return 'DONE!'#train_result

             # Setup the decoder input IDs (shifted right)
             labels = tokenizer(
                 examples['target'],
+                max_length=128,  # Set to None for dynamic padding
                 truncation=True,
                 padding='max_length',
                 #text_target=examples['target'],
             elif os.access(f'/data/{hub_id.strip()}_train_dataset3', os.R_OK):
                 dataset = load_dataset(dataset_name.strip())
+                #dataset['test'] = dataset['test'].select(range(700))
+                dataset['test'] = dataset['test'].select(range(50))
                 del dataset['train']
                 del dataset['validation']
                 test_set = dataset.map(tokenize_function, batched=True, batch_size=50, remove_columns=column_names,)
             elif os.access(f'/data/{hub_id.strip()}_validation_dataset', os.R_OK):
                 dataset = load_dataset(dataset_name.strip())
                 dataset['train'] = dataset['train'].select(range(8000))
+                dataset['train'] = dataset['train'].select(range(1000))
                 train_size = len(dataset['train'])
                 third_size = train_size // 3
                 del dataset['test']
             if os.access(f'/data/{hub_id.strip()}_train_dataset', os.R_OK) and not os.access(f'/data/{hub_id.strip()}_train_dataset3', os.R_OK):
                 dataset = load_dataset(dataset_name.strip())
+                dataset['train'] = dataset['train'].select(range(1000))
+                dataset['validation'] = dataset['validation'].select(range(100))
+                #dataset['train'] = dataset['train'].select(range(8000))
+                #dataset['validation'] = dataset['validation'].select(range(300))
                 train_size = len(dataset['train'])
                 third_size = train_size // 3
                 second_third = dataset['train'].select(range(third_size, third_size*2))
         except Exception as e:
             print(f"An error occurred: {str(e)}, TB: {traceback.format_exc()}")
             dataset = load_dataset(dataset_name.strip())
+            #dataset['train'] = dataset['train'].select(range(8000))
+            dataset['train'] = dataset['train'].select(range(1000))
             train_size = len(dataset['train'])
             third_size = train_size // 3
             # Tokenize the dataset
             return 'RUN AGAIN TO LOAD REST OF DATA'
         # Fine-tune the model
+        trainer.evaluate()
+        #if os.path.exists(training_args.output_dir) and os.listdir(training_args.output_dir):
+            #train_result = trainer.train(resume_from_checkpoint=True)
+        #else:
+            #train_result = trainer.train()
+        #trainer.push_to_hub(commit_message="Training complete!")
     except Exception as e:
         return f"An error occurred: {str(e)}, TB: {traceback.format_exc()}"
     return 'DONE!'#train_result