Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

args.json +10 -9
latest +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
scheduler.pt +1 -1
trainer_state.json +0 -0
training_args.bin +2 -2

args.json CHANGED Viewed

@@ -13,7 +13,7 @@
   "local_repo_path": null,
   "init_strategy": null,
   "template": "qwen2_5_vl",
-  "system": null,
   "max_length": 20480,
   "truncation_strategy": "delete",
   "max_pixels": null,
@@ -27,7 +27,8 @@
   "use_chat_template": true,
   "template_backend": "swift",
   "dataset": [
-    "/mllm_hdd/yfzhang/Agent-R1/construct_data/math_and_chart/arxivqa/arxivqa_processed_excuted_2_quality_training_v2_28k_v5.jsonl"
   ],
   "val_dataset": [],
   "split_dataset_ratio": 0.01,
@@ -87,7 +88,7 @@
   "ddp_backend": null,
   "ignore_args_error": false,
   "use_swift_lora": false,
-  "output_dir": "/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_training_file_swift_28k_arxivqa_28k_v5/v0-20250527-210915",
   "overwrite_output_dir": false,
   "do_train": false,
   "do_eval": false,
@@ -117,7 +118,7 @@
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
-  "logging_dir": "/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_training_file_swift_28k_arxivqa_28k_v5/v0-20250527-210915/runs",
   "logging_strategy": "steps",
   "logging_first_step": true,
   "logging_steps": 5,
@@ -147,10 +148,10 @@
   "debug": null,
   "dataloader_drop_last": false,
   "eval_steps": null,
-  "dataloader_num_workers": 2,
   "dataloader_prefetch_factor": null,
   "past_index": -1,
-  "run_name": "/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_training_file_swift_28k_arxivqa_28k_v5/v0-20250527-210915",
   "disable_tqdm": null,
   "label_names": null,
   "load_best_model_at_end": false,
@@ -204,7 +205,7 @@
   "group_by_length": false,
   "length_column_name": "length",
   "report_to": [
-    "tensorboard"
   ],
   "ddp_find_unused_parameters": null,
   "ddp_bucket_cap_mb": null,
@@ -358,9 +359,9 @@
   "local_world_size": 8,
   "model_suffix": "Qwen2.5-VL-7B-Instruct",
   "model_info": "ModelInfo(model_type='qwen2_5_vl', model_dir='/mllm_hdd/yfzhang/data/models--Qwen--Qwen2.5-VL-7B-Instruct/snapshots/cc594898137f460bfe9f0759e9844b3ce807cfb5', torch_dtype=torch.bfloat16, max_model_len=128000, quant_method=None, quant_bits=None, rope_scaling={'type': 'default', 'mrope_section': [16, 24, 24], 'rope_type': 'default'}, config=None, task_type='causal_lm', num_labels=None)",
-  "model_meta": "ModelMeta(model_type='qwen2_5_vl', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='qwen2_5_vl', get_function=<function get_model_tokenizer_qwen2_5_vl at 0x7ff617740d30>, model_arch='qwen2_vl', architectures=['Qwen2_5_VLForConditionalGeneration'], additional_saved_files=[], torch_dtype=None, is_multimodal=True, is_reward=False, task_type=None, ignore_patterns=None, requires=['transformers>=4.49', 'qwen_vl_utils>=0.0.6', 'decord'], tags=[])",
   "model_dir": "/mllm_hdd/yfzhang/data/models--Qwen--Qwen2.5-VL-7B-Instruct/snapshots/cc594898137f460bfe9f0759e9844b3ce807cfb5",
   "hub": "<class 'swift.hub.hub.MSHub'>",
   "evaluation_strategy": "epoch",
-  "training_args": "Seq2SeqTrainingArguments(output_dir='/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_training_file_swift_28k_arxivqa_28k_v5/v0-20250527-210915', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.EPOCH: 'epoch'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=16, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=1e-05, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=3.0, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs=None, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_training_file_swift_28k_arxivqa_28k_v5/v0-20250527-210915/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=5, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.EPOCH: 'epoch'>, save_steps=500, save_total_limit=5, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=None, dataloader_num_workers=2, dataloader_prefetch_factor=10, past_index=-1, run_name='/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_training_file_swift_28k_arxivqa_28k_v5/v0-20250527-210915', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, tp_size=0, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 2, 'offload_optimizer': {'device': 'none', 'pin_memory': True}, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': False, 'reduce_scatter': True, 'reduce_bucket_size': 200000000.0, 'contiguous_gradients': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=None, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, average_tokens_across_devices=None, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, check_model=True, acc_strategy='token', train_dataloader_shuffle=True, max_epochs=None, aligner_lr=None, vit_lr=None, optimizer=None, metric_warmup_step=0, fsdp_num=1, acc_steps=1, eval_use_evalscope=False, eval_datasets=[], eval_limit=None, eval_datasets_args=None, eval_generation_config=None, train_type='full', local_repo_path=None, galore_config=None)"
 }

   "local_repo_path": null,
   "init_strategy": null,
   "template": "qwen2_5_vl",
+  "system": "You are a helpful assistant.\n\nSolve the following problem step by step, and optionally write Python code for image manipulation to enhance your reasoning process. The Python code will be executed by an external sandbox, and the processed image or result (wrapped in <sandbox_output></sandbox_output>) can be returned to aid your reasoning and help you arrive at the final answer.\n\n**Reasoning & Image Manipulation (Optional but Encouraged):**\n    * You have the capability to write executable Python code to perform image manipulations (e.g., cropping to a Region of Interest (ROI), resizing, rotation, adjusting contrast) or perform calculation for better reasoning.\n    * The code will be executed in a secure sandbox, and its output will be provided back to you for further analysis.\n    * All Python code snippets **must** be wrapped as follows:\n    <code>\n    ```python\n    # your code.\n    ```\n    </code>\n    * At the end of the code, print the path of the processed image (processed_path) or the result for further processing in a sandbox environment.",
   "max_length": 20480,
   "truncation_strategy": "delete",
   "max_pixels": null,
   "use_chat_template": true,
   "template_backend": "swift",
   "dataset": [
+    "/mllm_hdd/yfzhang/Agent-R1/agent_latest_code/scripts/training_data/wo_system_image_180k_filter_w_image_size_filter.jsonl",
+    "/mllm_hdd/yfzhang/Agent-R1/construct_data/math_and_chart/mm-eumath/data_gemini_code_processed.jsonl"
   ],
   "val_dataset": [],
   "split_dataset_ratio": 0.01,
   "ddp_backend": null,
   "ignore_args_error": false,
   "use_swift_lora": false,
+  "output_dir": "/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_all_data_200k_w_imagesize_3epoch_maxpixel_mmeu_code/v1-20250604-093711",
   "overwrite_output_dir": false,
   "do_train": false,
   "do_eval": false,
   "log_level": "passive",
   "log_level_replica": "warning",
   "log_on_each_node": true,
+  "logging_dir": "/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_all_data_200k_w_imagesize_3epoch_maxpixel_mmeu_code/v1-20250604-093711/runs",
   "logging_strategy": "steps",
   "logging_first_step": true,
   "logging_steps": 5,
   "debug": null,
   "dataloader_drop_last": false,
   "eval_steps": null,
+  "dataloader_num_workers": 4,
   "dataloader_prefetch_factor": null,
   "past_index": -1,
+  "run_name": "/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_all_data_200k_w_imagesize_3epoch_maxpixel_mmeu_code/v1-20250604-093711",
   "disable_tqdm": null,
   "label_names": null,
   "load_best_model_at_end": false,
   "group_by_length": false,
   "length_column_name": "length",
   "report_to": [
+    "wandb"
   ],
   "ddp_find_unused_parameters": null,
   "ddp_bucket_cap_mb": null,
   "local_world_size": 8,
   "model_suffix": "Qwen2.5-VL-7B-Instruct",
   "model_info": "ModelInfo(model_type='qwen2_5_vl', model_dir='/mllm_hdd/yfzhang/data/models--Qwen--Qwen2.5-VL-7B-Instruct/snapshots/cc594898137f460bfe9f0759e9844b3ce807cfb5', torch_dtype=torch.bfloat16, max_model_len=128000, quant_method=None, quant_bits=None, rope_scaling={'type': 'default', 'mrope_section': [16, 24, 24], 'rope_type': 'default'}, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='qwen2_5_vl', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[]), ModelGroup(models=[Model(ms_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-3B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-7B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-32B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', hf_model_id='Qwen/Qwen2.5-VL-72B-Instruct-AWQ', model_path=None, ms_revision=None, hf_revision=None)], ignore_patterns=None, requires=None, tags=[])], template='qwen2_5_vl', get_function=<function get_model_tokenizer_qwen2_5_vl at 0x7f2566b44dc0>, model_arch='qwen2_vl', architectures=['Qwen2_5_VLForConditionalGeneration'], additional_saved_files=[], torch_dtype=None, is_multimodal=True, is_reward=False, task_type=None, ignore_patterns=None, requires=['transformers>=4.49', 'qwen_vl_utils>=0.0.6', 'decord'], tags=[])",
   "model_dir": "/mllm_hdd/yfzhang/data/models--Qwen--Qwen2.5-VL-7B-Instruct/snapshots/cc594898137f460bfe9f0759e9844b3ce807cfb5",
   "hub": "<class 'swift.hub.hub.MSHub'>",
   "evaluation_strategy": "epoch",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_all_data_200k_w_imagesize_3epoch_maxpixel_mmeu_code/v1-20250604-093711', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.EPOCH: 'epoch'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=16, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=1e-05, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=1.0, num_train_epochs=3.0, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs=None, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_all_data_200k_w_imagesize_3epoch_maxpixel_mmeu_code/v1-20250604-093711/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=5, logging_nan_inf_filter=True, save_strategy=<SaveStrategy.EPOCH: 'epoch'>, save_steps=500, save_total_limit=5, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=None, dataloader_num_workers=4, dataloader_prefetch_factor=10, past_index=-1, run_name='/mmu_mllm_hdd/yfzhang/Agent-R1/agent_latest_code/models/qwen_tool_all_data_200k_w_imagesize_3epoch_maxpixel_mmeu_code/v1-20250604-093711', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, tp_size=0, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 2, 'offload_optimizer': {'device': 'none', 'pin_memory': True}, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': False, 'reduce_scatter': True, 'reduce_bucket_size': 200000000.0, 'contiguous_gradients': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['wandb'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=None, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, include_for_metrics=[], eval_do_concat_batches=True, fp16_backend='auto', push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, include_tokens_per_second=None, include_num_input_tokens_seen=None, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, average_tokens_across_devices=None, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, check_model=True, acc_strategy='token', train_dataloader_shuffle=True, max_epochs=None, aligner_lr=None, vit_lr=None, optimizer=None, metric_warmup_step=0, fsdp_num=1, acc_steps=1, eval_use_evalscope=False, eval_datasets=[], eval_limit=None, eval_datasets_args=None, eval_generation_config=None, train_type='full', local_repo_path=None, galore_config=None)"
 }

latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step215~~


1	+ global_step4579

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f742bd18eef2470cc7a7369e1114a0122e48e851acc943fb16c5eb6a7e99e2ae
 size 4968243304

 version https://git-lfs.github.com/spec/v1
+oid sha256:a06dbb956b1e49d423c9d8f691f0d49cc48f7e25cfeb48c0e59d72d2f44ca8db
 size 4968243304

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfd8a38d75c120cd4ae3b9d2527d706f2727144aa851c3b39bc33b72e6569e5b
 size 4991495816

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b516399005617331e5c946542c3c40b45142ac303aa25202032db2c804e5fce
 size 4991495816

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed01c1eca2cfe39f350cdd24eae7827ac71ccaee08e81f09502ec3ed57b76ffc
 size 4932751040

 version https://git-lfs.github.com/spec/v1
+oid sha256:c7c5b09839066a82028ffbf59a4145eeab1d9ec425ff91cb607421c0d98472dc
 size 4932751040

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12cf3707746743f3a28805edabc543dba37204833db257e54d264525e01173c4
 size 1691924384

 version https://git-lfs.github.com/spec/v1
+oid sha256:5599b0807f19bc4dfa9653e80352480cd3d374c554c3194da8ef62649a4da25f
 size 1691924384

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d2fc698a1ff72742355e2e525a9be54a1a6eff82cf301510dfc37ddd5986052
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:342c2a4c36403447c6e2d516bfee918529caecea9438e87ccdaef76a23a6c675
 size 1064

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f616725581c133063988539ddbd7485dafe6ac0648f4466bf224032d16e53aa
-size 7992

 version https://git-lfs.github.com/spec/v1
+oid sha256:67eeec8ce69241d81b13dc1cead01702664d5c7871921b58da6f36b9b873d0b1
+size 8056