Upload 14 files

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +213 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f7526ee08f438d7808d9785137c18cbf8654a6472bcacb5c4de6092ac3fcb0c
 size 21005448

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b77ce3eabe98b3dd5d9af3d242aa7afa8f33882d1f56f65c58998bc9825b2a3
 size 21005448

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd94af4f394684f24cd699ee85a06451d1f8c42005cba02e137e0162177758d6
 size 42094394

 version https://git-lfs.github.com/spec/v1
+oid sha256:0df45b609c722c27fd6af31839d2e4766641be7a59015121be37decee3b15076
 size 42094394

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dd884ff74300335908cb0ce933135e61390658c94c2bd331d51f8cec6d63fa1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fef053b98b59c364725345dad3e53b155f73438c8248fe2f9a1da5c24f99b84
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f373e8fb20037e2635440e7a6a44223f19af178ddd45fe7d18a8d131ea1297e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:65388ae503753e7077fd19c66a72087713b4e5c41500c9577a18b19abc7e4d66
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0940170940170941,
   "eval_steps": 100,
-  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -217,6 +217,216 @@
       "eval_samples_per_second": 0.75,
       "eval_steps_per_second": 0.094,
       "step": 1400
     }
   ],
   "logging_steps": 100,
@@ -224,7 +434,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 100,
-  "total_flos": 5.70672180486144e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.1880341880341883,
   "eval_steps": 100,
+  "global_step": 2800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.75,
       "eval_steps_per_second": 0.094,
       "step": 1400
+    },
+    {
+      "epoch": 1.1721611721611722,
+      "grad_norm": 0.3037821054458618,
+      "learning_rate": 1.8067819073052813e-05,
+      "loss": 1.7148,
+      "step": 1500
+    },
+    {
+      "epoch": 1.1721611721611722,
+      "eval_loss": 1.612409234046936,
+      "eval_runtime": 3364.8773,
+      "eval_samples_per_second": 0.751,
+      "eval_steps_per_second": 0.094,
+      "step": 1500
+    },
+    {
+      "epoch": 1.2503052503052503,
+      "grad_norm": 0.3078468441963196,
+      "learning_rate": 1.7678472543402166e-05,
+      "loss": 1.7003,
+      "step": 1600
+    },
+    {
+      "epoch": 1.2503052503052503,
+      "eval_loss": 1.607498049736023,
+      "eval_runtime": 3366.2319,
+      "eval_samples_per_second": 0.75,
+      "eval_steps_per_second": 0.094,
+      "step": 1600
+    },
+    {
+      "epoch": 1.3284493284493284,
+      "grad_norm": 0.3602350056171417,
+      "learning_rate": 1.7258455772543573e-05,
+      "loss": 1.6981,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3284493284493284,
+      "eval_loss": 1.6040035486221313,
+      "eval_runtime": 3369.5225,
+      "eval_samples_per_second": 0.75,
+      "eval_steps_per_second": 0.094,
+      "step": 1700
+    },
+    {
+      "epoch": 1.4065934065934065,
+      "grad_norm": 0.34948959946632385,
+      "learning_rate": 1.6809446439937472e-05,
+      "loss": 1.703,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4065934065934065,
+      "eval_loss": 1.6002304553985596,
+      "eval_runtime": 3359.2322,
+      "eval_samples_per_second": 0.752,
+      "eval_steps_per_second": 0.094,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4847374847374848,
+      "grad_norm": 0.33941686153411865,
+      "learning_rate": 1.6333238030480473e-05,
+      "loss": 1.6842,
+      "step": 1900
+    },
+    {
+      "epoch": 1.4847374847374848,
+      "eval_loss": 1.5976512432098389,
+      "eval_runtime": 3363.9968,
+      "eval_samples_per_second": 0.751,
+      "eval_steps_per_second": 0.094,
+      "step": 1900
+    },
+    {
+      "epoch": 1.5628815628815629,
+      "grad_norm": 0.3594741225242615,
+      "learning_rate": 1.5831732670761e-05,
+      "loss": 1.6813,
+      "step": 2000
+    },
+    {
+      "epoch": 1.5628815628815629,
+      "eval_loss": 1.5942325592041016,
+      "eval_runtime": 3356.6247,
+      "eval_samples_per_second": 0.753,
+      "eval_steps_per_second": 0.094,
+      "step": 2000
+    },
+    {
+      "epoch": 1.641025641025641,
+      "grad_norm": 0.3513031303882599,
+      "learning_rate": 1.5306933531365748e-05,
+      "loss": 1.6747,
+      "step": 2100
+    },
+    {
+      "epoch": 1.641025641025641,
+      "eval_loss": 1.591470718383789,
+      "eval_runtime": 3360.2103,
+      "eval_samples_per_second": 0.752,
+      "eval_steps_per_second": 0.094,
+      "step": 2100
+    },
+    {
+      "epoch": 1.7191697191697193,
+      "grad_norm": 0.3548774719238281,
+      "learning_rate": 1.4760936825584535e-05,
+      "loss": 1.6821,
+      "step": 2200
+    },
+    {
+      "epoch": 1.7191697191697193,
+      "eval_loss": 1.5890487432479858,
+      "eval_runtime": 3360.7245,
+      "eval_samples_per_second": 0.752,
+      "eval_steps_per_second": 0.094,
+      "step": 2200
+    },
+    {
+      "epoch": 1.7973137973137974,
+      "grad_norm": 0.37473219633102417,
+      "learning_rate": 1.4195923436473257e-05,
+      "loss": 1.685,
+      "step": 2300
+    },
+    {
+      "epoch": 1.7973137973137974,
+      "eval_loss": 1.586594820022583,
+      "eval_runtime": 3365.8879,
+      "eval_samples_per_second": 0.75,
+      "eval_steps_per_second": 0.094,
+      "step": 2300
+    },
+    {
+      "epoch": 1.8754578754578755,
+      "grad_norm": 0.37071430683135986,
+      "learning_rate": 1.3614150205719086e-05,
+      "loss": 1.6602,
+      "step": 2400
+    },
+    {
+      "epoch": 1.8754578754578755,
+      "eval_loss": 1.5838119983673096,
+      "eval_runtime": 3363.0708,
+      "eval_samples_per_second": 0.751,
+      "eval_steps_per_second": 0.094,
+      "step": 2400
+    },
+    {
+      "epoch": 1.9536019536019538,
+      "grad_norm": 0.4014996588230133,
+      "learning_rate": 1.3017940919102943e-05,
+      "loss": 1.682,
+      "step": 2500
+    },
+    {
+      "epoch": 1.9536019536019538,
+      "eval_loss": 1.5820069313049316,
+      "eval_runtime": 3367.2545,
+      "eval_samples_per_second": 0.75,
+      "eval_steps_per_second": 0.094,
+      "step": 2500
+    },
+    {
+      "epoch": 2.0317460317460316,
+      "grad_norm": 0.3767947256565094,
+      "learning_rate": 1.2409677024566145e-05,
+      "loss": 1.6595,
+      "step": 2600
+    },
+    {
+      "epoch": 2.0317460317460316,
+      "eval_loss": 1.5797280073165894,
+      "eval_runtime": 3364.0566,
+      "eval_samples_per_second": 0.751,
+      "eval_steps_per_second": 0.094,
+      "step": 2600
+    },
+    {
+      "epoch": 2.10989010989011,
+      "grad_norm": 0.3852591812610626,
+      "learning_rate": 1.1791788119956191e-05,
+      "loss": 1.6606,
+      "step": 2700
+    },
+    {
+      "epoch": 2.10989010989011,
+      "eval_loss": 1.578330636024475,
+      "eval_runtime": 3359.3638,
+      "eval_samples_per_second": 0.752,
+      "eval_steps_per_second": 0.094,
+      "step": 2700
+    },
+    {
+      "epoch": 2.1880341880341883,
+      "grad_norm": 0.3954846262931824,
+      "learning_rate": 1.116674224844664e-05,
+      "loss": 1.6611,
+      "step": 2800
+    },
+    {
+      "epoch": 2.1880341880341883,
+      "eval_loss": 1.5769294500350952,
+      "eval_runtime": 3365.2078,
+      "eval_samples_per_second": 0.751,
+      "eval_steps_per_second": 0.094,
+      "step": 2800
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 100,
+  "total_flos": 1.141344360972288e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null