{
  "best_metric": 0.9450851180669961,
  "best_model_checkpoint": "output/fine_tuned/roberta-large/QNLI/checkpoint-6548",
  "epoch": 6.0,
  "eval_steps": 500,
  "global_step": 9822,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.30543677458766033,
      "grad_norm": 11.247173309326172,
      "learning_rate": 1.8981877418041133e-05,
      "loss": 0.3568,
      "step": 500
    },
    {
      "epoch": 0.6108735491753207,
      "grad_norm": 10.365036010742188,
      "learning_rate": 1.7963754836082265e-05,
      "loss": 0.2495,
      "step": 1000
    },
    {
      "epoch": 0.916310323762981,
      "grad_norm": 10.150346755981445,
      "learning_rate": 1.69456322541234e-05,
      "loss": 0.2269,
      "step": 1500
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.9362987369577156,
      "eval_loss": 0.16394878923892975,
      "eval_runtime": 21.9619,
      "eval_samples_per_second": 248.749,
      "eval_steps_per_second": 31.099,
      "step": 1637
    },
    {
      "epoch": 1.2217470983506413,
      "grad_norm": 3.6020638942718506,
      "learning_rate": 1.592750967216453e-05,
      "loss": 0.1745,
      "step": 2000
    },
    {
      "epoch": 1.5271838729383018,
      "grad_norm": 6.046133518218994,
      "learning_rate": 1.4909387090205662e-05,
      "loss": 0.152,
      "step": 2500
    },
    {
      "epoch": 1.832620647525962,
      "grad_norm": 8.392080307006836,
      "learning_rate": 1.3891264508246794e-05,
      "loss": 0.1637,
      "step": 3000
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.9372139849899322,
      "eval_loss": 0.1717752367258072,
      "eval_runtime": 21.9471,
      "eval_samples_per_second": 248.916,
      "eval_steps_per_second": 31.12,
      "step": 3274
    },
    {
      "epoch": 2.1380574221136226,
      "grad_norm": 8.249826431274414,
      "learning_rate": 1.2873141926287927e-05,
      "loss": 0.1264,
      "step": 3500
    },
    {
      "epoch": 2.4434941967012827,
      "grad_norm": 11.953063011169434,
      "learning_rate": 1.1855019344329057e-05,
      "loss": 0.0972,
      "step": 4000
    },
    {
      "epoch": 2.748930971288943,
      "grad_norm": 10.987544059753418,
      "learning_rate": 1.083689676237019e-05,
      "loss": 0.0977,
      "step": 4500
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.9425224235767893,
      "eval_loss": 0.17880001664161682,
      "eval_runtime": 21.9406,
      "eval_samples_per_second": 248.991,
      "eval_steps_per_second": 31.13,
      "step": 4911
    },
    {
      "epoch": 3.0543677458766036,
      "grad_norm": 7.250609874725342,
      "learning_rate": 9.818774180411322e-06,
      "loss": 0.0931,
      "step": 5000
    },
    {
      "epoch": 3.359804520464264,
      "grad_norm": 13.711064338684082,
      "learning_rate": 8.800651598452455e-06,
      "loss": 0.063,
      "step": 5500
    },
    {
      "epoch": 3.665241295051924,
      "grad_norm": 13.753935813903809,
      "learning_rate": 7.782529016493586e-06,
      "loss": 0.0648,
      "step": 6000
    },
    {
      "epoch": 3.9706780696395847,
      "grad_norm": 24.30721664428711,
      "learning_rate": 6.764406434534719e-06,
      "loss": 0.0672,
      "step": 6500
    },
    {
      "epoch": 4.0,
      "eval_accuracy": 0.9450851180669961,
      "eval_loss": 0.22500622272491455,
      "eval_runtime": 21.9639,
      "eval_samples_per_second": 248.726,
      "eval_steps_per_second": 31.096,
      "step": 6548
    },
    {
      "epoch": 4.276114844227245,
      "grad_norm": 12.191655158996582,
      "learning_rate": 5.74628385257585e-06,
      "loss": 0.0443,
      "step": 7000
    },
    {
      "epoch": 4.581551618814905,
      "grad_norm": 18.065465927124023,
      "learning_rate": 4.728161270616982e-06,
      "loss": 0.0444,
      "step": 7500
    },
    {
      "epoch": 4.886988393402565,
      "grad_norm": 6.896982669830322,
      "learning_rate": 3.7100386886581147e-06,
      "loss": 0.0437,
      "step": 8000
    },
    {
      "epoch": 5.0,
      "eval_accuracy": 0.9430715723961194,
      "eval_loss": 0.2863176465034485,
      "eval_runtime": 21.9571,
      "eval_samples_per_second": 248.803,
      "eval_steps_per_second": 31.106,
      "step": 8185
    },
    {
      "epoch": 5.192425167990226,
      "grad_norm": 0.14475573599338531,
      "learning_rate": 2.6919161066992467e-06,
      "loss": 0.034,
      "step": 8500
    },
    {
      "epoch": 5.497861942577886,
      "grad_norm": 0.1549614816904068,
      "learning_rate": 1.6737935247403788e-06,
      "loss": 0.0297,
      "step": 9000
    },
    {
      "epoch": 5.803298717165546,
      "grad_norm": 23.986265182495117,
      "learning_rate": 6.55670942781511e-07,
      "loss": 0.0289,
      "step": 9500
    },
    {
      "epoch": 6.0,
      "eval_accuracy": 0.9438037708218927,
      "eval_loss": 0.32157793641090393,
      "eval_runtime": 21.9268,
      "eval_samples_per_second": 249.147,
      "eval_steps_per_second": 31.149,
      "step": 9822
    },
    {
      "epoch": 6.0,
      "step": 9822,
      "total_flos": 1.4641993018359706e+17,
      "train_loss": 0.11072125577606219,
      "train_runtime": 6983.3562,
      "train_samples_per_second": 89.994,
      "train_steps_per_second": 1.406
    }
  ],
  "logging_steps": 500,
  "max_steps": 9822,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 6,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.4641993018359706e+17,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}