yuriachermann
/

Not-so-bright-AGI-v1

Question Answering

Generated from Trainer

Model card Files Files and versions Community

yuriachermann commited on Apr 19, 2024

Commit

a82435a

·

verified ·

1 Parent(s): 701bff5

Model save

Files changed (2) hide show

README.md +4 -19
adapter_model.safetensors +1 -1

README.md CHANGED Viewed

@@ -6,8 +6,6 @@ tags:
 - sft
 - generated_from_trainer
 base_model: google/gemma-2b
-datasets:
-- generator
 model-index:
 - name: Not-so-bright-AGI-v1
   results: []
@@ -18,9 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # Not-so-bright-AGI-v1
-This model is a fine-tuned version of [google/gemma-2b](https://huggingface.co/google/gemma-2b) on the generator dataset.
-It achieves the following results on the evaluation set:
-- Loss: 2.1509
 ## Model description
@@ -43,23 +39,12 @@ The following hyperparameters were used during training:
 - train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 8
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.05
-- training_steps: 593
-### Training results
-| Training Loss | Epoch  | Step | Validation Loss |
-|:-------------:|:------:|:----:|:---------------:|
-| 2.863         | 0.8197 | 100  | 2.5317          |
-| 2.4375        | 1.6393 | 200  | 2.3196          |
-| 2.3075        | 2.4590 | 300  | 2.2222          |
-| 2.2199        | 3.2787 | 400  | 2.1742          |
-| 2.1956        | 4.0984 | 500  | 2.1509          |
 ### Framework versions

 - sft
 - generated_from_trainer
 base_model: google/gemma-2b
 model-index:
 - name: Not-so-bright-AGI-v1
   results: []
 # Not-so-bright-AGI-v1
+This model is a fine-tuned version of [google/gemma-2b](https://huggingface.co/google/gemma-2b) on an unknown dataset.
 ## Model description
 - train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.05
+- training_steps: 1480
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5cc4f9b12da777b125ad0eb1214c1325d582727269d7aa70577e762d6fedf3b
 size 156926880

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f946ab5f6c8b551afdca266a5da9ef00a0bd5173270d79d5d357bc3df642ca3
 size 156926880