alexsallinen commited on 13 days ago

Commit

318178c

verified ·

1 Parent(s): 94f725a

Upload folder using huggingface_hub

Browse files

Files changed (28) hide show

config.json +3 -3
generation_config.json +4 -1
global_step1864/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
global_step1864/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
global_step1864/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
global_step1864/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
global_step1864/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt +3 -0
global_step1864/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
global_step1864/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
global_step1864/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
global_step1864/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
global_step1864/zero_pp_rank_4_mp_rank_00_model_states.pt +3 -0
latest +1 -0
model-00001-of-00002.safetensors +2 -2
model-00002-of-00002.safetensors +2 -2
model.safetensors.index.json +1 -1
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
scheduler.pt +1 -1
special_tokens_map.json +1 -1
tokenizer.json +2 -2
tokenizer_config.json +1 -9
trainer_state.json +0 -0
training_args.bin +2 -2
zero_to_fp32.py +24 -12

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "google/gemma-2-2b",
   "architectures": [
     "Gemma2ForCausalLM"
   ],
@@ -26,8 +26,8 @@
   "rms_norm_eps": 1e-06,
   "rope_theta": 10000.0,
   "sliding_window": 4096,
-  "torch_dtype": "float16",
   "transformers_version": "4.46.1",
   "use_cache": false,
-  "vocab_size": 256001
 }

 {
+  "_name_or_path": "/mloscratch/homes/meditron-team/models/gemma2/checkpoint-1854",
   "architectures": [
     "Gemma2ForCausalLM"
   ],
   "rms_norm_eps": 1e-06,
   "rope_theta": 10000.0,
   "sliding_window": 4096,
+  "torch_dtype": "bfloat16",
   "transformers_version": "4.46.1",
   "use_cache": false,
+  "vocab_size": 256000
 }

generation_config.json CHANGED Viewed

@@ -3,7 +3,10 @@
   "bos_token_id": 2,
   "cache_implementation": "hybrid",
   "do_sample": true,
-  "eos_token_id": 1,
   "pad_token_id": 0,
   "transformers_version": "4.46.1"
 }

   "bos_token_id": 2,
   "cache_implementation": "hybrid",
   "do_sample": true,
+  "eos_token_id": [
+    1,
+    107
+  ],
   "pad_token_id": 0,
   "transformers_version": "4.46.1"
 }

global_step1864/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6fe79999046943bc62b10be111a20213d7dd658397555cb35e506be9fb64007f
+size 6274425424

global_step1864/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d7eb2bf4e3cfbe4c3fc2ecccbfadf2dffd996be7b15252b1c98b6d7c466db91
+size 6274425424

global_step1864/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46f3cdfacbdd14d8866ad32de3865c1a23bf807e57a2716aa73d52acf632690a
+size 6274425424

global_step1864/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a1712d66142c471a13d90c76a44581d465eb565d20ae03f03ee32261cadb27f3
+size 6274425424

global_step1864/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93d29c222a98b329ef0f25d7fb9f88f186d4794e8af143c68aa2685bf36ca571
+size 6274425424

global_step1864/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f36d2a926915b07449ee765d24839a6a812c21dd81032121b495395438ab2940
+size 149262

global_step1864/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:972ef0e8fa5a3203d6e69152dd53be3bbba4ea528c08dae57d3d12fd99980da5
+size 149198

global_step1864/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d70591c1d2e9f248828fc53d9d32bb928fdcc7edf839bcd59f2d4865f11209df
+size 149198

global_step1864/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4445479dc07c9dc60723c434fc8d384c5adf1b3f400682ffdcf59f2120a7b2d3
+size 149198

global_step1864/zero_pp_rank_4_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7e3b28299c6f82810f8b69c924ae5fcf847bee9676b35ad91f82e5c1361151d
+size 149198

latest ADDED Viewed

	@@ -0,0 +1 @@


1	+ global_step1864

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dba3c41173f5956e023c697ccafb8e2969bc371393b10885caa373385346a7d
-size 4988030096

 version https://git-lfs.github.com/spec/v1
+oid sha256:629b6c82afc7c798a78fd7940404debc3580ce7a66cd870bcdb754011c39ab76
+size 4988025760

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba5d7dd7287e86057bef71864c25d236f663968668089d3eaf235efaa3cab459
-size 240691712

 version https://git-lfs.github.com/spec/v1
+oid sha256:9591cd00015a0a0947b81e3c446d35e6b65b363e078507b220def73e3b3b78f0
+size 240691728

model.safetensors.index.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "metadata": {
-    "total_size": 5228688384
   },
   "weight_map": {
     "model.embed_tokens.weight": "model-00001-of-00002.safetensors",

 {
   "metadata": {
+    "total_size": 5228683776
   },
   "weight_map": {
     "model.embed_tokens.weight": "model-00001-of-00002.safetensors",

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:adb66d6753eab70f12094dcbbbde2ddd7149e12f3d3a3efcade2fd44674e8f6a
+size 15280

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94e1312d93d92412eeeb9726ed060a5b8e22cdfd40b632e62c1e271444ff254b
+size 15280

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd190e746f60f7244032d517fc7a16b7d52753c597470122870679705c44ceff
+size 15280

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:66755f27fa20606f38b75c0784f4331e15225df1e95a25c242181b8e488576aa
+size 15280

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c0827ee9e1de5036a02092613d8fb8ba2432aa3f718549b0e280b3eb0fa7e7d
+size 15280

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2afe27f0b417fc7c9491a2bb4320df3412f9374964c0d5789b33ca6d45d5eb1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c668c049bd7d0c7099cdbf10c29b8634a7fc3a06825f6bd5b09825496ac371a4
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -18,7 +18,7 @@
     "single_word": false
   },
   "pad_token": {
-    "content": "<|end_of_text|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

     "single_word": false
   },
   "pad_token": {
+    "content": "<pad>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9eda9bb5223a1ac8b8be5f107300ede8725215d80cbc163380a3bf1996e9a3bf
-size 34363065

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f7eee611703c5ce5d1eee32d9cdcfe465647b8aff0c1dfb3bed7ad7dbb05060
+size 34362873

tokenizer_config.json CHANGED Viewed

@@ -1993,14 +1993,6 @@
       "rstrip": false,
       "single_word": false,
       "special": false
-    },
-    "256000": {
-      "content": "<|end_of_text|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
     }
   },
   "additional_special_tokens": [
@@ -2012,7 +2004,7 @@
   "clean_up_tokenization_spaces": false,
   "eos_token": "<eos>",
   "model_max_length": 1000000000000000019884624838656,
-  "pad_token": "<|end_of_text|>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",

       "rstrip": false,
       "single_word": false,
       "special": false
     }
   },
   "additional_special_tokens": [
   "clean_up_tokenization_spaces": false,
   "eos_token": "<eos>",
   "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
   "sp_model_kwargs": {},
   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac7ec2e0128c46a2255ded3bc9f1387707854e18a68c5a44a88e7690555a701d
-size 8312

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cf206cf17111aa25faa473fbc4816437a914bf925de5dbca7f5a97a92b598ce
+size 8568

zero_to_fp32.py CHANGED Viewed

@@ -191,7 +191,7 @@ def parse_optim_states(files, ds_checkpoint_dir):
     return zero_stage, world_size, fp32_flat_groups
-def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir):
     """
     Returns fp32 state_dict reconstructed from ds checkpoint
@@ -211,9 +211,11 @@ def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir):
     print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
     if zero_stage <= 2:
-        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states)
     elif zero_stage == 3:
-        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states)
 def _zero2_merge_frozen_params(state_dict, zero_model_states):
@@ -326,7 +328,8 @@ def _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero
     print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
-def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states):
     state_dict = OrderedDict()
     # buffers
@@ -335,7 +338,8 @@ def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zer
     if debug:
         print(f"added {len(buffers)} buffers")
-    _zero2_merge_frozen_params(state_dict, zero_model_states)
     _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
@@ -444,7 +448,8 @@ def _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero
     print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
-def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states):
     state_dict = OrderedDict()
     # buffers
@@ -453,7 +458,8 @@ def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zer
     if debug:
         print(f"added {len(buffers)} buffers")
-    _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
     _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
@@ -465,7 +471,7 @@ def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zer
     return state_dict
-def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag=None):
     """
     Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
     ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
@@ -474,6 +480,7 @@ def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag=None):
     Args:
         - ``checkpoint_dir``: path to the desired checkpoint folder
         - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
     Returns:
         - pytorch ``state_dict``
@@ -511,10 +518,10 @@ def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag=None):
     if not os.path.isdir(ds_checkpoint_dir):
         raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
-    return _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir)
-def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir, output_file, tag=None):
     """
     Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
     loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
@@ -523,9 +530,10 @@ def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir, output_file, tag=
         - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
         - ``output_file``: path to the pytorch fp32 state_dict output file (e.g. path/pytorch_model.bin)
         - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
     """
-    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
     print(f"Saving fp32 state dict to {output_file}")
     torch.save(state_dict, output_file)
@@ -584,9 +592,13 @@ if __name__ == "__main__":
                         type=str,
                         default=None,
                         help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
     parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
     args = parser.parse_args()
     debug = args.debug
-    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir, args.output_file, tag=args.tag)

     return zero_stage, world_size, fp32_flat_groups
+def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters):
     """
     Returns fp32 state_dict reconstructed from ds checkpoint
     print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
     if zero_stage <= 2:
+        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
     elif zero_stage == 3:
+        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
 def _zero2_merge_frozen_params(state_dict, zero_model_states):
     print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
     state_dict = OrderedDict()
     # buffers
     if debug:
         print(f"added {len(buffers)} buffers")
+    if not exclude_frozen_parameters:
+        _zero2_merge_frozen_params(state_dict, zero_model_states)
     _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
     print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
     state_dict = OrderedDict()
     # buffers
     if debug:
         print(f"added {len(buffers)} buffers")
+    if not exclude_frozen_parameters:
+        _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
     _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
     return state_dict
+def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag=None, exclude_frozen_parameters=False):
     """
     Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
     ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
     Args:
         - ``checkpoint_dir``: path to the desired checkpoint folder
         - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
     Returns:
         - pytorch ``state_dict``
     if not os.path.isdir(ds_checkpoint_dir):
         raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
+    return _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters)
+def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir, output_file, tag=None, exclude_frozen_parameters=False):
     """
     Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
     loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
         - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
         - ``output_file``: path to the pytorch fp32 state_dict output file (e.g. path/pytorch_model.bin)
         - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
     """
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag, exclude_frozen_parameters)
     print(f"Saving fp32 state dict to {output_file}")
     torch.save(state_dict, output_file)
                         type=str,
                         default=None,
                         help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
+    parser.add_argument("--exclude_frozen_parameters", action='store_true', help="exclude frozen parameters")
     parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
     args = parser.parse_args()
     debug = args.debug
+    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir,
+                                               args.output_file,
+                                               tag=args.tag,
+                                               exclude_frozen_parameters=args.exclude_frozen_parameters)