{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 32.0,
  "eval_steps": 1000,
  "global_step": 51440,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.03110419906687403,
      "grad_norm": 2.2928953170776367,
      "learning_rate": 2.5e-05,
      "loss": 6.628,
      "ncs_loss": 0,
      "step": 50,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.06220839813374806,
      "grad_norm": 0.7618619203567505,
      "learning_rate": 5e-05,
      "loss": 5.0092,
      "ncs_loss": 0,
      "step": 100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.09331259720062209,
      "grad_norm": 0.6833961009979248,
      "learning_rate": 7.500000000000001e-05,
      "loss": 4.3559,
      "ncs_loss": 0,
      "step": 150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.12441679626749612,
      "grad_norm": 0.5831977725028992,
      "learning_rate": 0.0001,
      "loss": 4.0594,
      "ncs_loss": 0,
      "step": 200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.15552099533437014,
      "grad_norm": 0.6125498414039612,
      "learning_rate": 0.0001,
      "loss": 3.8618,
      "ncs_loss": 0,
      "step": 250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.18662519440124417,
      "grad_norm": 0.5627033710479736,
      "learning_rate": 0.0001,
      "loss": 3.706,
      "ncs_loss": 0,
      "step": 300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.2177293934681182,
      "grad_norm": 0.5878304243087769,
      "learning_rate": 0.0001,
      "loss": 3.6056,
      "ncs_loss": 0,
      "step": 350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.24883359253499224,
      "grad_norm": 0.6183663010597229,
      "learning_rate": 0.0001,
      "loss": 3.5238,
      "ncs_loss": 0,
      "step": 400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.27993779160186627,
      "grad_norm": 0.6152674555778503,
      "learning_rate": 0.0001,
      "loss": 3.4538,
      "ncs_loss": 0,
      "step": 450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.3110419906687403,
      "grad_norm": 0.7018622756004333,
      "learning_rate": 0.0001,
      "loss": 3.401,
      "ncs_loss": 0,
      "step": 500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.3421461897356143,
      "grad_norm": 0.6684855818748474,
      "learning_rate": 0.0001,
      "loss": 3.3212,
      "ncs_loss": 0,
      "step": 550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.37325038880248834,
      "grad_norm": 0.6407332420349121,
      "learning_rate": 0.0001,
      "loss": 3.285,
      "ncs_loss": 0,
      "step": 600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.40435458786936235,
      "grad_norm": 0.7326609492301941,
      "learning_rate": 0.0001,
      "loss": 3.2589,
      "ncs_loss": 0,
      "step": 650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.4354587869362364,
      "grad_norm": 0.6827641129493713,
      "learning_rate": 0.0001,
      "loss": 3.2007,
      "ncs_loss": 0,
      "step": 700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.4665629860031104,
      "grad_norm": 0.7132142782211304,
      "learning_rate": 0.0001,
      "loss": 3.1614,
      "ncs_loss": 0,
      "step": 750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.4976671850699845,
      "grad_norm": 0.7760031223297119,
      "learning_rate": 0.0001,
      "loss": 3.1152,
      "ncs_loss": 0,
      "step": 800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.5287713841368584,
      "grad_norm": 0.6533505320549011,
      "learning_rate": 0.0001,
      "loss": 3.0925,
      "ncs_loss": 0,
      "step": 850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.5598755832037325,
      "grad_norm": 0.724338948726654,
      "learning_rate": 0.0001,
      "loss": 3.0665,
      "ncs_loss": 0,
      "step": 900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.5909797822706065,
      "grad_norm": 0.6383064389228821,
      "learning_rate": 0.0001,
      "loss": 3.0057,
      "ncs_loss": 0,
      "step": 950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.6220839813374806,
      "grad_norm": 0.5976400971412659,
      "learning_rate": 0.0001,
      "loss": 2.9818,
      "ncs_loss": 0,
      "step": 1000,
      "z_loss": 0
    },
    {
      "epoch": 0.6220839813374806,
      "eval_bleu": 2.2511,
      "eval_gen_len": 30.8611,
      "eval_loss": 3.5811710357666016,
      "eval_runtime": 29.0735,
      "eval_samples_per_second": 34.43,
      "eval_steps_per_second": 1.101,
      "num_experts_activated": 0,
      "step": 1000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.6531881804043546,
      "grad_norm": 0.6952742338180542,
      "learning_rate": 0.0001,
      "loss": 2.9828,
      "ncs_loss": 0,
      "step": 1050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.6842923794712286,
      "grad_norm": 0.719609260559082,
      "learning_rate": 0.0001,
      "loss": 2.9339,
      "ncs_loss": 0,
      "step": 1100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.7153965785381027,
      "grad_norm": 0.6738200783729553,
      "learning_rate": 0.0001,
      "loss": 2.8891,
      "ncs_loss": 0,
      "step": 1150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.7465007776049767,
      "grad_norm": 0.677793562412262,
      "learning_rate": 0.0001,
      "loss": 2.8773,
      "ncs_loss": 0,
      "step": 1200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.7776049766718507,
      "grad_norm": 0.9289242625236511,
      "learning_rate": 0.0001,
      "loss": 2.8478,
      "ncs_loss": 0,
      "step": 1250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.8087091757387247,
      "grad_norm": 0.7066203951835632,
      "learning_rate": 0.0001,
      "loss": 2.8356,
      "ncs_loss": 0,
      "step": 1300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.8398133748055988,
      "grad_norm": 0.6652625799179077,
      "learning_rate": 0.0001,
      "loss": 2.8094,
      "ncs_loss": 0,
      "step": 1350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.8709175738724728,
      "grad_norm": 0.8381309509277344,
      "learning_rate": 0.0001,
      "loss": 2.7907,
      "ncs_loss": 0,
      "step": 1400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.9020217729393468,
      "grad_norm": 0.6905615329742432,
      "learning_rate": 0.0001,
      "loss": 2.7563,
      "ncs_loss": 0,
      "step": 1450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.9331259720062208,
      "grad_norm": 0.7608477473258972,
      "learning_rate": 0.0001,
      "loss": 2.7578,
      "ncs_loss": 0,
      "step": 1500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.9642301710730948,
      "grad_norm": 0.7347375750541687,
      "learning_rate": 0.0001,
      "loss": 2.7251,
      "ncs_loss": 0,
      "step": 1550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 0.995334370139969,
      "grad_norm": 0.702505886554718,
      "learning_rate": 0.0001,
      "loss": 2.7141,
      "ncs_loss": 0,
      "step": 1600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.026438569206843,
      "grad_norm": 0.6537837982177734,
      "learning_rate": 0.0001,
      "loss": 2.653,
      "ncs_loss": 0,
      "step": 1650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.0575427682737168,
      "grad_norm": 0.8656463623046875,
      "learning_rate": 0.0001,
      "loss": 2.65,
      "ncs_loss": 0,
      "step": 1700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.088646967340591,
      "grad_norm": 0.7349302768707275,
      "learning_rate": 0.0001,
      "loss": 2.6262,
      "ncs_loss": 0,
      "step": 1750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.119751166407465,
      "grad_norm": 0.750291109085083,
      "learning_rate": 0.0001,
      "loss": 2.5894,
      "ncs_loss": 0,
      "step": 1800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.150855365474339,
      "grad_norm": 0.9031336903572083,
      "learning_rate": 0.0001,
      "loss": 2.5872,
      "ncs_loss": 0,
      "step": 1850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.181959564541213,
      "grad_norm": 0.7300265431404114,
      "learning_rate": 0.0001,
      "loss": 2.5668,
      "ncs_loss": 0,
      "step": 1900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.213063763608087,
      "grad_norm": 0.710974395275116,
      "learning_rate": 0.0001,
      "loss": 2.5769,
      "ncs_loss": 0,
      "step": 1950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.244167962674961,
      "grad_norm": 0.6760727167129517,
      "learning_rate": 0.0001,
      "loss": 2.5394,
      "ncs_loss": 0,
      "step": 2000,
      "z_loss": 0
    },
    {
      "epoch": 1.244167962674961,
      "eval_bleu": 4.3464,
      "eval_gen_len": 27.5924,
      "eval_loss": 3.277777910232544,
      "eval_runtime": 24.1694,
      "eval_samples_per_second": 41.416,
      "eval_steps_per_second": 1.324,
      "num_experts_activated": 0,
      "step": 2000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.2752721617418352,
      "grad_norm": 0.7315755486488342,
      "learning_rate": 0.0001,
      "loss": 2.5189,
      "ncs_loss": 0,
      "step": 2050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.3063763608087091,
      "grad_norm": 0.7309828996658325,
      "learning_rate": 0.0001,
      "loss": 2.5138,
      "ncs_loss": 0,
      "step": 2100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.3374805598755832,
      "grad_norm": 0.8244749307632446,
      "learning_rate": 0.0001,
      "loss": 2.4936,
      "ncs_loss": 0,
      "step": 2150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.3685847589424571,
      "grad_norm": 0.7517377138137817,
      "learning_rate": 0.0001,
      "loss": 2.4855,
      "ncs_loss": 0,
      "step": 2200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.3996889580093312,
      "grad_norm": 0.7474690079689026,
      "learning_rate": 0.0001,
      "loss": 2.4631,
      "ncs_loss": 0,
      "step": 2250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.4307931570762054,
      "grad_norm": 0.818647027015686,
      "learning_rate": 0.0001,
      "loss": 2.4492,
      "ncs_loss": 0,
      "step": 2300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.4618973561430793,
      "grad_norm": 0.9092276692390442,
      "learning_rate": 0.0001,
      "loss": 2.4286,
      "ncs_loss": 0,
      "step": 2350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.4930015552099534,
      "grad_norm": 0.6956433653831482,
      "learning_rate": 0.0001,
      "loss": 2.4134,
      "ncs_loss": 0,
      "step": 2400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.5241057542768273,
      "grad_norm": 0.743820309638977,
      "learning_rate": 0.0001,
      "loss": 2.3883,
      "ncs_loss": 0,
      "step": 2450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.5552099533437014,
      "grad_norm": 0.6551726460456848,
      "learning_rate": 0.0001,
      "loss": 2.3925,
      "ncs_loss": 0,
      "step": 2500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.5863141524105755,
      "grad_norm": 0.7548835277557373,
      "learning_rate": 0.0001,
      "loss": 2.3692,
      "ncs_loss": 0,
      "step": 2550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.6174183514774496,
      "grad_norm": 0.7316100597381592,
      "learning_rate": 0.0001,
      "loss": 2.3615,
      "ncs_loss": 0,
      "step": 2600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.6485225505443235,
      "grad_norm": 0.78448086977005,
      "learning_rate": 0.0001,
      "loss": 2.3598,
      "ncs_loss": 0,
      "step": 2650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.6796267496111974,
      "grad_norm": 0.8446571230888367,
      "learning_rate": 0.0001,
      "loss": 2.3595,
      "ncs_loss": 0,
      "step": 2700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.7107309486780715,
      "grad_norm": 0.7023518681526184,
      "learning_rate": 0.0001,
      "loss": 2.3229,
      "ncs_loss": 0,
      "step": 2750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.7418351477449456,
      "grad_norm": 0.8015095591545105,
      "learning_rate": 0.0001,
      "loss": 2.3304,
      "ncs_loss": 0,
      "step": 2800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.7729393468118197,
      "grad_norm": 0.8586356043815613,
      "learning_rate": 0.0001,
      "loss": 2.31,
      "ncs_loss": 0,
      "step": 2850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.8040435458786936,
      "grad_norm": 0.7578726410865784,
      "learning_rate": 0.0001,
      "loss": 2.298,
      "ncs_loss": 0,
      "step": 2900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.8351477449455675,
      "grad_norm": 0.7633515000343323,
      "learning_rate": 0.0001,
      "loss": 2.2738,
      "ncs_loss": 0,
      "step": 2950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.8662519440124417,
      "grad_norm": 0.7673928141593933,
      "learning_rate": 0.0001,
      "loss": 2.2711,
      "ncs_loss": 0,
      "step": 3000,
      "z_loss": 0
    },
    {
      "epoch": 1.8662519440124417,
      "eval_bleu": 5.4823,
      "eval_gen_len": 26.5624,
      "eval_loss": 3.060978889465332,
      "eval_runtime": 23.8254,
      "eval_samples_per_second": 42.014,
      "eval_steps_per_second": 1.343,
      "num_experts_activated": 0,
      "step": 3000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.8973561430793158,
      "grad_norm": 0.6662881970405579,
      "learning_rate": 0.0001,
      "loss": 2.2516,
      "ncs_loss": 0,
      "step": 3050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.9284603421461899,
      "grad_norm": 0.7109389901161194,
      "learning_rate": 0.0001,
      "loss": 2.2592,
      "ncs_loss": 0,
      "step": 3100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.9595645412130638,
      "grad_norm": 0.7500819563865662,
      "learning_rate": 0.0001,
      "loss": 2.2601,
      "ncs_loss": 0,
      "step": 3150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 1.9906687402799377,
      "grad_norm": 0.8730489611625671,
      "learning_rate": 0.0001,
      "loss": 2.2244,
      "ncs_loss": 0,
      "step": 3200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.021772939346812,
      "grad_norm": 0.7560123205184937,
      "learning_rate": 0.0001,
      "loss": 2.2064,
      "ncs_loss": 0,
      "step": 3250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.052877138413686,
      "grad_norm": 0.903353214263916,
      "learning_rate": 0.0001,
      "loss": 2.1792,
      "ncs_loss": 0,
      "step": 3300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.08398133748056,
      "grad_norm": 0.7836371064186096,
      "learning_rate": 0.0001,
      "loss": 2.1915,
      "ncs_loss": 0,
      "step": 3350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.1150855365474337,
      "grad_norm": 0.7701725959777832,
      "learning_rate": 0.0001,
      "loss": 2.1873,
      "ncs_loss": 0,
      "step": 3400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.146189735614308,
      "grad_norm": 0.8347311019897461,
      "learning_rate": 0.0001,
      "loss": 2.1793,
      "ncs_loss": 0,
      "step": 3450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.177293934681182,
      "grad_norm": 0.804110050201416,
      "learning_rate": 0.0001,
      "loss": 2.1625,
      "ncs_loss": 0,
      "step": 3500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.208398133748056,
      "grad_norm": 0.8022831678390503,
      "learning_rate": 0.0001,
      "loss": 2.1563,
      "ncs_loss": 0,
      "step": 3550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.23950233281493,
      "grad_norm": 0.8170463442802429,
      "learning_rate": 0.0001,
      "loss": 2.1289,
      "ncs_loss": 0,
      "step": 3600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.2706065318818043,
      "grad_norm": 0.7790406942367554,
      "learning_rate": 0.0001,
      "loss": 2.1451,
      "ncs_loss": 0,
      "step": 3650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.301710730948678,
      "grad_norm": 0.752191424369812,
      "learning_rate": 0.0001,
      "loss": 2.1174,
      "ncs_loss": 0,
      "step": 3700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.332814930015552,
      "grad_norm": 0.758049726486206,
      "learning_rate": 0.0001,
      "loss": 2.1305,
      "ncs_loss": 0,
      "step": 3750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.363919129082426,
      "grad_norm": 0.7027572989463806,
      "learning_rate": 0.0001,
      "loss": 2.1148,
      "ncs_loss": 0,
      "step": 3800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.3950233281493003,
      "grad_norm": 0.7463446259498596,
      "learning_rate": 0.0001,
      "loss": 2.1106,
      "ncs_loss": 0,
      "step": 3850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.426127527216174,
      "grad_norm": 0.8782596588134766,
      "learning_rate": 0.0001,
      "loss": 2.0889,
      "ncs_loss": 0,
      "step": 3900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.457231726283048,
      "grad_norm": 0.8228744268417358,
      "learning_rate": 0.0001,
      "loss": 2.0893,
      "ncs_loss": 0,
      "step": 3950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.488335925349922,
      "grad_norm": 0.8443735241889954,
      "learning_rate": 0.0001,
      "loss": 2.0787,
      "ncs_loss": 0,
      "step": 4000,
      "z_loss": 0
    },
    {
      "epoch": 2.488335925349922,
      "eval_bleu": 6.9788,
      "eval_gen_len": 26.7413,
      "eval_loss": 2.8963091373443604,
      "eval_runtime": 22.9357,
      "eval_samples_per_second": 43.644,
      "eval_steps_per_second": 1.395,
      "num_experts_activated": 0,
      "step": 4000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.5194401244167963,
      "grad_norm": 0.7315682768821716,
      "learning_rate": 0.0001,
      "loss": 2.0797,
      "ncs_loss": 0,
      "step": 4050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.5505443234836704,
      "grad_norm": 0.7191895842552185,
      "learning_rate": 0.0001,
      "loss": 2.0793,
      "ncs_loss": 0,
      "step": 4100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.5816485225505446,
      "grad_norm": 0.7849559187889099,
      "learning_rate": 0.0001,
      "loss": 2.0443,
      "ncs_loss": 0,
      "step": 4150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.6127527216174182,
      "grad_norm": 0.7999035120010376,
      "learning_rate": 0.0001,
      "loss": 2.0445,
      "ncs_loss": 0,
      "step": 4200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.6438569206842923,
      "grad_norm": 0.7253769040107727,
      "learning_rate": 0.0001,
      "loss": 2.0639,
      "ncs_loss": 0,
      "step": 4250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.6749611197511665,
      "grad_norm": 0.7908705472946167,
      "learning_rate": 0.0001,
      "loss": 2.0242,
      "ncs_loss": 0,
      "step": 4300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.7060653188180406,
      "grad_norm": 0.8409011960029602,
      "learning_rate": 0.0001,
      "loss": 2.0332,
      "ncs_loss": 0,
      "step": 4350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.7371695178849142,
      "grad_norm": 0.7629788517951965,
      "learning_rate": 0.0001,
      "loss": 2.0356,
      "ncs_loss": 0,
      "step": 4400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.7682737169517884,
      "grad_norm": 0.7533361911773682,
      "learning_rate": 0.0001,
      "loss": 2.0335,
      "ncs_loss": 0,
      "step": 4450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.7993779160186625,
      "grad_norm": 0.7787436246871948,
      "learning_rate": 0.0001,
      "loss": 2.0319,
      "ncs_loss": 0,
      "step": 4500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.8304821150855366,
      "grad_norm": 0.7154199481010437,
      "learning_rate": 0.0001,
      "loss": 2.002,
      "ncs_loss": 0,
      "step": 4550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.8615863141524107,
      "grad_norm": 0.7846418619155884,
      "learning_rate": 0.0001,
      "loss": 2.0121,
      "ncs_loss": 0,
      "step": 4600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.892690513219285,
      "grad_norm": 0.8108910322189331,
      "learning_rate": 0.0001,
      "loss": 2.0035,
      "ncs_loss": 0,
      "step": 4650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.9237947122861585,
      "grad_norm": 0.7431248426437378,
      "learning_rate": 0.0001,
      "loss": 1.9981,
      "ncs_loss": 0,
      "step": 4700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.9548989113530326,
      "grad_norm": 0.8054040670394897,
      "learning_rate": 0.0001,
      "loss": 1.9855,
      "ncs_loss": 0,
      "step": 4750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 2.9860031104199067,
      "grad_norm": 0.8159362077713013,
      "learning_rate": 0.0001,
      "loss": 1.9986,
      "ncs_loss": 0,
      "step": 4800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.017107309486781,
      "grad_norm": 0.7294719219207764,
      "learning_rate": 0.0001,
      "loss": 1.9647,
      "ncs_loss": 0,
      "step": 4850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.0482115085536545,
      "grad_norm": 0.687917947769165,
      "learning_rate": 0.0001,
      "loss": 1.9415,
      "ncs_loss": 0,
      "step": 4900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.0793157076205286,
      "grad_norm": 0.8171758651733398,
      "learning_rate": 0.0001,
      "loss": 1.9357,
      "ncs_loss": 0,
      "step": 4950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.1104199066874028,
      "grad_norm": 0.738531231880188,
      "learning_rate": 0.0001,
      "loss": 1.9373,
      "ncs_loss": 0,
      "step": 5000,
      "z_loss": 0
    },
    {
      "epoch": 3.1104199066874028,
      "eval_bleu": 8.1811,
      "eval_gen_len": 26.5524,
      "eval_loss": 2.7877817153930664,
      "eval_runtime": 22.8673,
      "eval_samples_per_second": 43.774,
      "eval_steps_per_second": 1.399,
      "num_experts_activated": 0,
      "step": 5000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.141524105754277,
      "grad_norm": 0.7132529616355896,
      "learning_rate": 0.0001,
      "loss": 1.9297,
      "ncs_loss": 0,
      "step": 5050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.172628304821151,
      "grad_norm": 0.7216809391975403,
      "learning_rate": 0.0001,
      "loss": 1.9306,
      "ncs_loss": 0,
      "step": 5100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.203732503888025,
      "grad_norm": 0.8100106716156006,
      "learning_rate": 0.0001,
      "loss": 1.9183,
      "ncs_loss": 0,
      "step": 5150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.234836702954899,
      "grad_norm": 0.8679385781288147,
      "learning_rate": 0.0001,
      "loss": 1.9102,
      "ncs_loss": 0,
      "step": 5200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.265940902021773,
      "grad_norm": 0.7635408043861389,
      "learning_rate": 0.0001,
      "loss": 1.885,
      "ncs_loss": 0,
      "step": 5250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.297045101088647,
      "grad_norm": 0.7734346389770508,
      "learning_rate": 0.0001,
      "loss": 1.8873,
      "ncs_loss": 0,
      "step": 5300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.328149300155521,
      "grad_norm": 0.7708961963653564,
      "learning_rate": 0.0001,
      "loss": 1.9015,
      "ncs_loss": 0,
      "step": 5350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.359253499222395,
      "grad_norm": 0.7547470927238464,
      "learning_rate": 0.0001,
      "loss": 1.8889,
      "ncs_loss": 0,
      "step": 5400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.390357698289269,
      "grad_norm": 0.7171056270599365,
      "learning_rate": 0.0001,
      "loss": 1.8839,
      "ncs_loss": 0,
      "step": 5450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.421461897356143,
      "grad_norm": 0.7384618520736694,
      "learning_rate": 0.0001,
      "loss": 1.8873,
      "ncs_loss": 0,
      "step": 5500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.452566096423017,
      "grad_norm": 0.7895247936248779,
      "learning_rate": 0.0001,
      "loss": 1.9054,
      "ncs_loss": 0,
      "step": 5550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.4836702954898913,
      "grad_norm": 0.7852039933204651,
      "learning_rate": 0.0001,
      "loss": 1.8833,
      "ncs_loss": 0,
      "step": 5600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.5147744945567654,
      "grad_norm": 0.8013899326324463,
      "learning_rate": 0.0001,
      "loss": 1.875,
      "ncs_loss": 0,
      "step": 5650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.545878693623639,
      "grad_norm": 0.8564794659614563,
      "learning_rate": 0.0001,
      "loss": 1.8836,
      "ncs_loss": 0,
      "step": 5700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.576982892690513,
      "grad_norm": 0.7926589846611023,
      "learning_rate": 0.0001,
      "loss": 1.8781,
      "ncs_loss": 0,
      "step": 5750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.6080870917573873,
      "grad_norm": 0.7732256054878235,
      "learning_rate": 0.0001,
      "loss": 1.8567,
      "ncs_loss": 0,
      "step": 5800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.6391912908242614,
      "grad_norm": 0.6661362051963806,
      "learning_rate": 0.0001,
      "loss": 1.8707,
      "ncs_loss": 0,
      "step": 5850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.670295489891135,
      "grad_norm": 0.7809703350067139,
      "learning_rate": 0.0001,
      "loss": 1.8656,
      "ncs_loss": 0,
      "step": 5900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.701399688958009,
      "grad_norm": 0.7975611090660095,
      "learning_rate": 0.0001,
      "loss": 1.8668,
      "ncs_loss": 0,
      "step": 5950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.7325038880248833,
      "grad_norm": 0.7881225347518921,
      "learning_rate": 0.0001,
      "loss": 1.8533,
      "ncs_loss": 0,
      "step": 6000,
      "z_loss": 0
    },
    {
      "epoch": 3.7325038880248833,
      "eval_bleu": 9.052,
      "eval_gen_len": 26.4436,
      "eval_loss": 2.7018425464630127,
      "eval_runtime": 22.9521,
      "eval_samples_per_second": 43.613,
      "eval_steps_per_second": 1.394,
      "num_experts_activated": 0,
      "step": 6000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.7636080870917574,
      "grad_norm": 0.7170723080635071,
      "learning_rate": 0.0001,
      "loss": 1.85,
      "ncs_loss": 0,
      "step": 6050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.7947122861586315,
      "grad_norm": 0.8572277426719666,
      "learning_rate": 0.0001,
      "loss": 1.8286,
      "ncs_loss": 0,
      "step": 6100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.8258164852255057,
      "grad_norm": 0.6736041903495789,
      "learning_rate": 0.0001,
      "loss": 1.846,
      "ncs_loss": 0,
      "step": 6150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.8569206842923793,
      "grad_norm": 0.7577553391456604,
      "learning_rate": 0.0001,
      "loss": 1.8168,
      "ncs_loss": 0,
      "step": 6200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.8880248833592534,
      "grad_norm": 0.6908586621284485,
      "learning_rate": 0.0001,
      "loss": 1.8389,
      "ncs_loss": 0,
      "step": 6250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.9191290824261276,
      "grad_norm": 0.7517426609992981,
      "learning_rate": 0.0001,
      "loss": 1.827,
      "ncs_loss": 0,
      "step": 6300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.9502332814930017,
      "grad_norm": 0.8476719260215759,
      "learning_rate": 0.0001,
      "loss": 1.8264,
      "ncs_loss": 0,
      "step": 6350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 3.9813374805598754,
      "grad_norm": 0.7077165246009827,
      "learning_rate": 0.0001,
      "loss": 1.7923,
      "ncs_loss": 0,
      "step": 6400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.0124416796267495,
      "grad_norm": 0.7193703651428223,
      "learning_rate": 0.0001,
      "loss": 1.7996,
      "ncs_loss": 0,
      "step": 6450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.043545878693624,
      "grad_norm": 0.7654373049736023,
      "learning_rate": 0.0001,
      "loss": 1.7846,
      "ncs_loss": 0,
      "step": 6500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.074650077760498,
      "grad_norm": 0.8165631294250488,
      "learning_rate": 0.0001,
      "loss": 1.7636,
      "ncs_loss": 0,
      "step": 6550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.105754276827372,
      "grad_norm": 0.7087466716766357,
      "learning_rate": 0.0001,
      "loss": 1.7706,
      "ncs_loss": 0,
      "step": 6600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.136858475894246,
      "grad_norm": 0.8090831637382507,
      "learning_rate": 0.0001,
      "loss": 1.7677,
      "ncs_loss": 0,
      "step": 6650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.16796267496112,
      "grad_norm": 0.711958110332489,
      "learning_rate": 0.0001,
      "loss": 1.7675,
      "ncs_loss": 0,
      "step": 6700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.199066874027994,
      "grad_norm": 0.7580207586288452,
      "learning_rate": 0.0001,
      "loss": 1.7631,
      "ncs_loss": 0,
      "step": 6750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.230171073094867,
      "grad_norm": 0.767204999923706,
      "learning_rate": 0.0001,
      "loss": 1.7574,
      "ncs_loss": 0,
      "step": 6800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.2612752721617415,
      "grad_norm": 0.8673791885375977,
      "learning_rate": 0.0001,
      "loss": 1.7653,
      "ncs_loss": 0,
      "step": 6850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.292379471228616,
      "grad_norm": 0.8825274109840393,
      "learning_rate": 0.0001,
      "loss": 1.749,
      "ncs_loss": 0,
      "step": 6900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.32348367029549,
      "grad_norm": 0.7601757645606995,
      "learning_rate": 0.0001,
      "loss": 1.764,
      "ncs_loss": 0,
      "step": 6950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.354587869362364,
      "grad_norm": 0.7358233332633972,
      "learning_rate": 0.0001,
      "loss": 1.7677,
      "ncs_loss": 0,
      "step": 7000,
      "z_loss": 0
    },
    {
      "epoch": 4.354587869362364,
      "eval_bleu": 9.9558,
      "eval_gen_len": 25.7802,
      "eval_loss": 2.6285042762756348,
      "eval_runtime": 22.5785,
      "eval_samples_per_second": 44.334,
      "eval_steps_per_second": 1.417,
      "num_experts_activated": 0,
      "step": 7000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.385692068429238,
      "grad_norm": 0.8126082420349121,
      "learning_rate": 0.0001,
      "loss": 1.746,
      "ncs_loss": 0,
      "step": 7050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.416796267496112,
      "grad_norm": 0.7501223683357239,
      "learning_rate": 0.0001,
      "loss": 1.7497,
      "ncs_loss": 0,
      "step": 7100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.447900466562986,
      "grad_norm": 0.6489207148551941,
      "learning_rate": 0.0001,
      "loss": 1.7334,
      "ncs_loss": 0,
      "step": 7150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.47900466562986,
      "grad_norm": 0.7400221824645996,
      "learning_rate": 0.0001,
      "loss": 1.7536,
      "ncs_loss": 0,
      "step": 7200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.510108864696734,
      "grad_norm": 0.675780177116394,
      "learning_rate": 0.0001,
      "loss": 1.7388,
      "ncs_loss": 0,
      "step": 7250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.541213063763609,
      "grad_norm": 0.7089738249778748,
      "learning_rate": 0.0001,
      "loss": 1.7283,
      "ncs_loss": 0,
      "step": 7300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.572317262830482,
      "grad_norm": 0.7316648364067078,
      "learning_rate": 0.0001,
      "loss": 1.7431,
      "ncs_loss": 0,
      "step": 7350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.603421461897356,
      "grad_norm": 0.7749749422073364,
      "learning_rate": 0.0001,
      "loss": 1.7206,
      "ncs_loss": 0,
      "step": 7400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.63452566096423,
      "grad_norm": 0.7549362778663635,
      "learning_rate": 0.0001,
      "loss": 1.7239,
      "ncs_loss": 0,
      "step": 7450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.665629860031104,
      "grad_norm": 0.7401790022850037,
      "learning_rate": 0.0001,
      "loss": 1.7324,
      "ncs_loss": 0,
      "step": 7500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.696734059097978,
      "grad_norm": 0.9246450066566467,
      "learning_rate": 0.0001,
      "loss": 1.7031,
      "ncs_loss": 0,
      "step": 7550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.727838258164852,
      "grad_norm": 0.8010777831077576,
      "learning_rate": 0.0001,
      "loss": 1.7143,
      "ncs_loss": 0,
      "step": 7600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.7589424572317265,
      "grad_norm": 0.7928683161735535,
      "learning_rate": 0.0001,
      "loss": 1.7141,
      "ncs_loss": 0,
      "step": 7650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.790046656298601,
      "grad_norm": 0.7264252305030823,
      "learning_rate": 0.0001,
      "loss": 1.7115,
      "ncs_loss": 0,
      "step": 7700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.821150855365475,
      "grad_norm": 0.7121081352233887,
      "learning_rate": 0.0001,
      "loss": 1.7145,
      "ncs_loss": 0,
      "step": 7750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.852255054432348,
      "grad_norm": 0.7818482518196106,
      "learning_rate": 0.0001,
      "loss": 1.7076,
      "ncs_loss": 0,
      "step": 7800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.883359253499222,
      "grad_norm": 0.8491640686988831,
      "learning_rate": 0.0001,
      "loss": 1.725,
      "ncs_loss": 0,
      "step": 7850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.914463452566096,
      "grad_norm": 0.7299659252166748,
      "learning_rate": 0.0001,
      "loss": 1.7094,
      "ncs_loss": 0,
      "step": 7900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.94556765163297,
      "grad_norm": 0.6935214996337891,
      "learning_rate": 0.0001,
      "loss": 1.6832,
      "ncs_loss": 0,
      "step": 7950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 4.976671850699844,
      "grad_norm": 0.8455689549446106,
      "learning_rate": 0.0001,
      "loss": 1.6856,
      "ncs_loss": 0,
      "step": 8000,
      "z_loss": 0
    },
    {
      "epoch": 4.976671850699844,
      "eval_bleu": 10.4238,
      "eval_gen_len": 25.5594,
      "eval_loss": 2.56120228767395,
      "eval_runtime": 22.2877,
      "eval_samples_per_second": 44.913,
      "eval_steps_per_second": 1.436,
      "num_experts_activated": 0,
      "step": 8000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.0077760497667185,
      "grad_norm": 0.7676206827163696,
      "learning_rate": 0.0001,
      "loss": 1.6786,
      "ncs_loss": 0,
      "step": 8050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.038880248833593,
      "grad_norm": 0.8044140934944153,
      "learning_rate": 0.0001,
      "loss": 1.6594,
      "ncs_loss": 0,
      "step": 8100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.069984447900467,
      "grad_norm": 0.6886296272277832,
      "learning_rate": 0.0001,
      "loss": 1.659,
      "ncs_loss": 0,
      "step": 8150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.101088646967341,
      "grad_norm": 0.6302939653396606,
      "learning_rate": 0.0001,
      "loss": 1.6737,
      "ncs_loss": 0,
      "step": 8200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.132192846034215,
      "grad_norm": 0.718752920627594,
      "learning_rate": 0.0001,
      "loss": 1.6587,
      "ncs_loss": 0,
      "step": 8250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.163297045101088,
      "grad_norm": 0.6982635259628296,
      "learning_rate": 0.0001,
      "loss": 1.637,
      "ncs_loss": 0,
      "step": 8300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.194401244167962,
      "grad_norm": 0.8032870888710022,
      "learning_rate": 0.0001,
      "loss": 1.6521,
      "ncs_loss": 0,
      "step": 8350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.2255054432348365,
      "grad_norm": 0.7679449319839478,
      "learning_rate": 0.0001,
      "loss": 1.6562,
      "ncs_loss": 0,
      "step": 8400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.256609642301711,
      "grad_norm": 0.7659454941749573,
      "learning_rate": 0.0001,
      "loss": 1.6552,
      "ncs_loss": 0,
      "step": 8450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.287713841368585,
      "grad_norm": 0.6792975664138794,
      "learning_rate": 0.0001,
      "loss": 1.6365,
      "ncs_loss": 0,
      "step": 8500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.318818040435459,
      "grad_norm": 0.7644578218460083,
      "learning_rate": 0.0001,
      "loss": 1.6427,
      "ncs_loss": 0,
      "step": 8550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.349922239502333,
      "grad_norm": 0.7141010165214539,
      "learning_rate": 0.0001,
      "loss": 1.6433,
      "ncs_loss": 0,
      "step": 8600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.381026438569207,
      "grad_norm": 0.735578715801239,
      "learning_rate": 0.0001,
      "loss": 1.6388,
      "ncs_loss": 0,
      "step": 8650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.412130637636081,
      "grad_norm": 0.7292989492416382,
      "learning_rate": 0.0001,
      "loss": 1.6082,
      "ncs_loss": 0,
      "step": 8700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.443234836702955,
      "grad_norm": 0.7342416048049927,
      "learning_rate": 0.0001,
      "loss": 1.6408,
      "ncs_loss": 0,
      "step": 8750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.4743390357698285,
      "grad_norm": 0.7236562967300415,
      "learning_rate": 0.0001,
      "loss": 1.655,
      "ncs_loss": 0,
      "step": 8800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.505443234836703,
      "grad_norm": 0.6908710598945618,
      "learning_rate": 0.0001,
      "loss": 1.6249,
      "ncs_loss": 0,
      "step": 8850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.536547433903577,
      "grad_norm": 0.7685582637786865,
      "learning_rate": 0.0001,
      "loss": 1.6328,
      "ncs_loss": 0,
      "step": 8900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.567651632970451,
      "grad_norm": 0.6091713905334473,
      "learning_rate": 0.0001,
      "loss": 1.6257,
      "ncs_loss": 0,
      "step": 8950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.598755832037325,
      "grad_norm": 0.9158804416656494,
      "learning_rate": 0.0001,
      "loss": 1.6259,
      "ncs_loss": 0,
      "step": 9000,
      "z_loss": 0
    },
    {
      "epoch": 5.598755832037325,
      "eval_bleu": 11.3462,
      "eval_gen_len": 25.5125,
      "eval_loss": 2.5210113525390625,
      "eval_runtime": 22.2974,
      "eval_samples_per_second": 44.893,
      "eval_steps_per_second": 1.435,
      "num_experts_activated": 0,
      "step": 9000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.629860031104199,
      "grad_norm": 0.8536307215690613,
      "learning_rate": 0.0001,
      "loss": 1.6348,
      "ncs_loss": 0,
      "step": 9050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.660964230171073,
      "grad_norm": 0.7137542366981506,
      "learning_rate": 0.0001,
      "loss": 1.6336,
      "ncs_loss": 0,
      "step": 9100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.692068429237947,
      "grad_norm": 0.7586312294006348,
      "learning_rate": 0.0001,
      "loss": 1.6134,
      "ncs_loss": 0,
      "step": 9150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.723172628304821,
      "grad_norm": 0.6971807479858398,
      "learning_rate": 0.0001,
      "loss": 1.6141,
      "ncs_loss": 0,
      "step": 9200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.7542768273716955,
      "grad_norm": 0.6902579069137573,
      "learning_rate": 0.0001,
      "loss": 1.6175,
      "ncs_loss": 0,
      "step": 9250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.78538102643857,
      "grad_norm": 0.6543594002723694,
      "learning_rate": 0.0001,
      "loss": 1.6111,
      "ncs_loss": 0,
      "step": 9300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.816485225505443,
      "grad_norm": 0.6940335631370544,
      "learning_rate": 0.0001,
      "loss": 1.6325,
      "ncs_loss": 0,
      "step": 9350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.847589424572317,
      "grad_norm": 0.761324942111969,
      "learning_rate": 0.0001,
      "loss": 1.6279,
      "ncs_loss": 0,
      "step": 9400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.878693623639191,
      "grad_norm": 0.7946722507476807,
      "learning_rate": 0.0001,
      "loss": 1.5928,
      "ncs_loss": 0,
      "step": 9450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.909797822706065,
      "grad_norm": 0.7009966969490051,
      "learning_rate": 0.0001,
      "loss": 1.5856,
      "ncs_loss": 0,
      "step": 9500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.940902021772939,
      "grad_norm": 0.645363986492157,
      "learning_rate": 0.0001,
      "loss": 1.6067,
      "ncs_loss": 0,
      "step": 9550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 5.9720062208398135,
      "grad_norm": 0.7104528546333313,
      "learning_rate": 0.0001,
      "loss": 1.592,
      "ncs_loss": 0,
      "step": 9600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.003110419906688,
      "grad_norm": 0.7160081267356873,
      "learning_rate": 0.0001,
      "loss": 1.5902,
      "ncs_loss": 0,
      "step": 9650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.034214618973562,
      "grad_norm": 0.6797707080841064,
      "learning_rate": 0.0001,
      "loss": 1.5893,
      "ncs_loss": 0,
      "step": 9700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.065318818040436,
      "grad_norm": 0.7345002293586731,
      "learning_rate": 0.0001,
      "loss": 1.5664,
      "ncs_loss": 0,
      "step": 9750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.096423017107309,
      "grad_norm": 0.6945518851280212,
      "learning_rate": 0.0001,
      "loss": 1.5601,
      "ncs_loss": 0,
      "step": 9800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.127527216174183,
      "grad_norm": 0.7368187308311462,
      "learning_rate": 0.0001,
      "loss": 1.5808,
      "ncs_loss": 0,
      "step": 9850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.158631415241057,
      "grad_norm": 0.7677534222602844,
      "learning_rate": 0.0001,
      "loss": 1.5555,
      "ncs_loss": 0,
      "step": 9900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.189735614307931,
      "grad_norm": 0.7378732562065125,
      "learning_rate": 0.0001,
      "loss": 1.5597,
      "ncs_loss": 0,
      "step": 9950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.2208398133748055,
      "grad_norm": 0.7354607582092285,
      "learning_rate": 0.0001,
      "loss": 1.5572,
      "ncs_loss": 0,
      "step": 10000,
      "z_loss": 0
    },
    {
      "epoch": 6.2208398133748055,
      "eval_bleu": 11.8849,
      "eval_gen_len": 25.5824,
      "eval_loss": 2.471550703048706,
      "eval_runtime": 22.0307,
      "eval_samples_per_second": 45.437,
      "eval_steps_per_second": 1.453,
      "num_experts_activated": 0,
      "step": 10000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.25194401244168,
      "grad_norm": 0.7159214615821838,
      "learning_rate": 0.0001,
      "loss": 1.5572,
      "ncs_loss": 0,
      "step": 10050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.283048211508554,
      "grad_norm": 0.7880516648292542,
      "learning_rate": 0.0001,
      "loss": 1.5388,
      "ncs_loss": 0,
      "step": 10100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.314152410575428,
      "grad_norm": 0.7559759616851807,
      "learning_rate": 0.0001,
      "loss": 1.5608,
      "ncs_loss": 0,
      "step": 10150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.345256609642302,
      "grad_norm": 0.77852863073349,
      "learning_rate": 0.0001,
      "loss": 1.5458,
      "ncs_loss": 0,
      "step": 10200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.376360808709176,
      "grad_norm": 0.725842297077179,
      "learning_rate": 0.0001,
      "loss": 1.5446,
      "ncs_loss": 0,
      "step": 10250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.40746500777605,
      "grad_norm": 0.7328020930290222,
      "learning_rate": 0.0001,
      "loss": 1.5467,
      "ncs_loss": 0,
      "step": 10300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.438569206842923,
      "grad_norm": 0.7063249349594116,
      "learning_rate": 0.0001,
      "loss": 1.5543,
      "ncs_loss": 0,
      "step": 10350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.469673405909798,
      "grad_norm": 0.7374365329742432,
      "learning_rate": 0.0001,
      "loss": 1.5489,
      "ncs_loss": 0,
      "step": 10400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.500777604976672,
      "grad_norm": 0.7391592264175415,
      "learning_rate": 0.0001,
      "loss": 1.5468,
      "ncs_loss": 0,
      "step": 10450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.531881804043546,
      "grad_norm": 0.8442301750183105,
      "learning_rate": 0.0001,
      "loss": 1.5529,
      "ncs_loss": 0,
      "step": 10500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.56298600311042,
      "grad_norm": 0.7858766317367554,
      "learning_rate": 0.0001,
      "loss": 1.5439,
      "ncs_loss": 0,
      "step": 10550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.594090202177294,
      "grad_norm": 0.6147168874740601,
      "learning_rate": 0.0001,
      "loss": 1.556,
      "ncs_loss": 0,
      "step": 10600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.625194401244168,
      "grad_norm": 0.6458513736724854,
      "learning_rate": 0.0001,
      "loss": 1.5476,
      "ncs_loss": 0,
      "step": 10650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.656298600311042,
      "grad_norm": 0.7088903188705444,
      "learning_rate": 0.0001,
      "loss": 1.5437,
      "ncs_loss": 0,
      "step": 10700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.687402799377916,
      "grad_norm": 0.753520667552948,
      "learning_rate": 0.0001,
      "loss": 1.5336,
      "ncs_loss": 0,
      "step": 10750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.71850699844479,
      "grad_norm": 0.7120456099510193,
      "learning_rate": 0.0001,
      "loss": 1.5405,
      "ncs_loss": 0,
      "step": 10800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.749611197511664,
      "grad_norm": 0.696378231048584,
      "learning_rate": 0.0001,
      "loss": 1.5398,
      "ncs_loss": 0,
      "step": 10850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.780715396578538,
      "grad_norm": 0.6977370977401733,
      "learning_rate": 0.0001,
      "loss": 1.5369,
      "ncs_loss": 0,
      "step": 10900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.811819595645412,
      "grad_norm": 0.7763382792472839,
      "learning_rate": 0.0001,
      "loss": 1.5502,
      "ncs_loss": 0,
      "step": 10950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.842923794712286,
      "grad_norm": 0.6796738505363464,
      "learning_rate": 0.0001,
      "loss": 1.5318,
      "ncs_loss": 0,
      "step": 11000,
      "z_loss": 0
    },
    {
      "epoch": 6.842923794712286,
      "eval_bleu": 12.2949,
      "eval_gen_len": 25.6234,
      "eval_loss": 2.43060564994812,
      "eval_runtime": 22.48,
      "eval_samples_per_second": 44.529,
      "eval_steps_per_second": 1.423,
      "num_experts_activated": 0,
      "step": 11000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.87402799377916,
      "grad_norm": 0.7874337434768677,
      "learning_rate": 0.0001,
      "loss": 1.5301,
      "ncs_loss": 0,
      "step": 11050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.905132192846034,
      "grad_norm": 0.7539860010147095,
      "learning_rate": 0.0001,
      "loss": 1.5264,
      "ncs_loss": 0,
      "step": 11100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.936236391912908,
      "grad_norm": 0.6801657676696777,
      "learning_rate": 0.0001,
      "loss": 1.5081,
      "ncs_loss": 0,
      "step": 11150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.9673405909797825,
      "grad_norm": 0.6937605738639832,
      "learning_rate": 0.0001,
      "loss": 1.5263,
      "ncs_loss": 0,
      "step": 11200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 6.998444790046657,
      "grad_norm": 0.786186158657074,
      "learning_rate": 0.0001,
      "loss": 1.5256,
      "ncs_loss": 0,
      "step": 11250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.029548989113531,
      "grad_norm": 0.7314718961715698,
      "learning_rate": 0.0001,
      "loss": 1.483,
      "ncs_loss": 0,
      "step": 11300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.060653188180404,
      "grad_norm": 0.6833499073982239,
      "learning_rate": 0.0001,
      "loss": 1.4774,
      "ncs_loss": 0,
      "step": 11350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.091757387247278,
      "grad_norm": 0.799111545085907,
      "learning_rate": 0.0001,
      "loss": 1.5019,
      "ncs_loss": 0,
      "step": 11400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.122861586314152,
      "grad_norm": 0.6468823552131653,
      "learning_rate": 0.0001,
      "loss": 1.4912,
      "ncs_loss": 0,
      "step": 11450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.153965785381026,
      "grad_norm": 0.8499552011489868,
      "learning_rate": 0.0001,
      "loss": 1.4823,
      "ncs_loss": 0,
      "step": 11500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.1850699844479005,
      "grad_norm": 0.7875176072120667,
      "learning_rate": 0.0001,
      "loss": 1.4865,
      "ncs_loss": 0,
      "step": 11550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.216174183514775,
      "grad_norm": 0.7603269219398499,
      "learning_rate": 0.0001,
      "loss": 1.4727,
      "ncs_loss": 0,
      "step": 11600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.247278382581649,
      "grad_norm": 0.6825352907180786,
      "learning_rate": 0.0001,
      "loss": 1.4813,
      "ncs_loss": 0,
      "step": 11650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.278382581648523,
      "grad_norm": 0.7913629412651062,
      "learning_rate": 0.0001,
      "loss": 1.4813,
      "ncs_loss": 0,
      "step": 11700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.309486780715397,
      "grad_norm": 0.8254991769790649,
      "learning_rate": 0.0001,
      "loss": 1.4829,
      "ncs_loss": 0,
      "step": 11750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.34059097978227,
      "grad_norm": 0.7542070746421814,
      "learning_rate": 0.0001,
      "loss": 1.4954,
      "ncs_loss": 0,
      "step": 11800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.371695178849144,
      "grad_norm": 0.8372296690940857,
      "learning_rate": 0.0001,
      "loss": 1.4692,
      "ncs_loss": 0,
      "step": 11850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.402799377916018,
      "grad_norm": 0.8070778250694275,
      "learning_rate": 0.0001,
      "loss": 1.479,
      "ncs_loss": 0,
      "step": 11900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.4339035769828925,
      "grad_norm": 0.8283255100250244,
      "learning_rate": 0.0001,
      "loss": 1.4899,
      "ncs_loss": 0,
      "step": 11950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.465007776049767,
      "grad_norm": 0.7017615437507629,
      "learning_rate": 0.0001,
      "loss": 1.4808,
      "ncs_loss": 0,
      "step": 12000,
      "z_loss": 0
    },
    {
      "epoch": 7.465007776049767,
      "eval_bleu": 12.7519,
      "eval_gen_len": 25.6454,
      "eval_loss": 2.398437261581421,
      "eval_runtime": 22.485,
      "eval_samples_per_second": 44.519,
      "eval_steps_per_second": 1.423,
      "num_experts_activated": 0,
      "step": 12000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.496111975116641,
      "grad_norm": 0.7501466870307922,
      "learning_rate": 0.0001,
      "loss": 1.5031,
      "ncs_loss": 0,
      "step": 12050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.527216174183515,
      "grad_norm": 0.8902967572212219,
      "learning_rate": 0.0001,
      "loss": 1.4707,
      "ncs_loss": 0,
      "step": 12100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.558320373250389,
      "grad_norm": 0.6971856355667114,
      "learning_rate": 0.0001,
      "loss": 1.4845,
      "ncs_loss": 0,
      "step": 12150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.589424572317263,
      "grad_norm": 0.7447845935821533,
      "learning_rate": 0.0001,
      "loss": 1.4822,
      "ncs_loss": 0,
      "step": 12200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.620528771384137,
      "grad_norm": 0.6849920749664307,
      "learning_rate": 0.0001,
      "loss": 1.4646,
      "ncs_loss": 0,
      "step": 12250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.651632970451011,
      "grad_norm": 0.6682304739952087,
      "learning_rate": 0.0001,
      "loss": 1.4849,
      "ncs_loss": 0,
      "step": 12300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.6827371695178845,
      "grad_norm": 0.7866222858428955,
      "learning_rate": 0.0001,
      "loss": 1.4632,
      "ncs_loss": 0,
      "step": 12350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.713841368584759,
      "grad_norm": 0.7057226300239563,
      "learning_rate": 0.0001,
      "loss": 1.4778,
      "ncs_loss": 0,
      "step": 12400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.744945567651633,
      "grad_norm": 0.7002075910568237,
      "learning_rate": 0.0001,
      "loss": 1.473,
      "ncs_loss": 0,
      "step": 12450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.776049766718507,
      "grad_norm": 0.7592411041259766,
      "learning_rate": 0.0001,
      "loss": 1.4755,
      "ncs_loss": 0,
      "step": 12500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.807153965785381,
      "grad_norm": 0.6991466283798218,
      "learning_rate": 0.0001,
      "loss": 1.4707,
      "ncs_loss": 0,
      "step": 12550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.838258164852255,
      "grad_norm": 0.6605335474014282,
      "learning_rate": 0.0001,
      "loss": 1.4786,
      "ncs_loss": 0,
      "step": 12600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.869362363919129,
      "grad_norm": 0.7058311700820923,
      "learning_rate": 0.0001,
      "loss": 1.4622,
      "ncs_loss": 0,
      "step": 12650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.900466562986003,
      "grad_norm": 0.6824691295623779,
      "learning_rate": 0.0001,
      "loss": 1.4661,
      "ncs_loss": 0,
      "step": 12700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.9315707620528775,
      "grad_norm": 0.726002037525177,
      "learning_rate": 0.0001,
      "loss": 1.4615,
      "ncs_loss": 0,
      "step": 12750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.962674961119751,
      "grad_norm": 0.6879330277442932,
      "learning_rate": 0.0001,
      "loss": 1.471,
      "ncs_loss": 0,
      "step": 12800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 7.993779160186625,
      "grad_norm": 0.6818405985832214,
      "learning_rate": 0.0001,
      "loss": 1.4738,
      "ncs_loss": 0,
      "step": 12850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.024883359253499,
      "grad_norm": 0.7542372345924377,
      "learning_rate": 0.0001,
      "loss": 1.4413,
      "ncs_loss": 0,
      "step": 12900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.055987558320373,
      "grad_norm": 0.7670994997024536,
      "learning_rate": 0.0001,
      "loss": 1.4629,
      "ncs_loss": 0,
      "step": 12950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.087091757387247,
      "grad_norm": 0.79770427942276,
      "learning_rate": 0.0001,
      "loss": 1.429,
      "ncs_loss": 0,
      "step": 13000,
      "z_loss": 0
    },
    {
      "epoch": 8.087091757387247,
      "eval_bleu": 12.6427,
      "eval_gen_len": 25.4875,
      "eval_loss": 2.3834633827209473,
      "eval_runtime": 22.6249,
      "eval_samples_per_second": 44.243,
      "eval_steps_per_second": 1.414,
      "num_experts_activated": 0,
      "step": 13000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.118195956454121,
      "grad_norm": 0.6800978779792786,
      "learning_rate": 0.0001,
      "loss": 1.4112,
      "ncs_loss": 0,
      "step": 13050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.149300155520995,
      "grad_norm": 0.729314386844635,
      "learning_rate": 0.0001,
      "loss": 1.4195,
      "ncs_loss": 0,
      "step": 13100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.18040435458787,
      "grad_norm": 0.7365017533302307,
      "learning_rate": 0.0001,
      "loss": 1.4222,
      "ncs_loss": 0,
      "step": 13150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.211508553654744,
      "grad_norm": 0.9048267602920532,
      "learning_rate": 0.0001,
      "loss": 1.436,
      "ncs_loss": 0,
      "step": 13200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.242612752721618,
      "grad_norm": 0.6699585318565369,
      "learning_rate": 0.0001,
      "loss": 1.3992,
      "ncs_loss": 0,
      "step": 13250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.273716951788492,
      "grad_norm": 0.6114180088043213,
      "learning_rate": 0.0001,
      "loss": 1.4313,
      "ncs_loss": 0,
      "step": 13300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.304821150855366,
      "grad_norm": 0.7156291604042053,
      "learning_rate": 0.0001,
      "loss": 1.4227,
      "ncs_loss": 0,
      "step": 13350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.33592534992224,
      "grad_norm": 0.8197219371795654,
      "learning_rate": 0.0001,
      "loss": 1.4307,
      "ncs_loss": 0,
      "step": 13400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.367029548989114,
      "grad_norm": 0.7577123641967773,
      "learning_rate": 0.0001,
      "loss": 1.4154,
      "ncs_loss": 0,
      "step": 13450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.398133748055988,
      "grad_norm": 0.683546245098114,
      "learning_rate": 0.0001,
      "loss": 1.4198,
      "ncs_loss": 0,
      "step": 13500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.42923794712286,
      "grad_norm": 0.8267865180969238,
      "learning_rate": 0.0001,
      "loss": 1.4375,
      "ncs_loss": 0,
      "step": 13550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.460342146189735,
      "grad_norm": 0.7262455224990845,
      "learning_rate": 0.0001,
      "loss": 1.4188,
      "ncs_loss": 0,
      "step": 13600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.491446345256609,
      "grad_norm": 0.8384140133857727,
      "learning_rate": 0.0001,
      "loss": 1.4201,
      "ncs_loss": 0,
      "step": 13650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.522550544323483,
      "grad_norm": 0.7458929419517517,
      "learning_rate": 0.0001,
      "loss": 1.4188,
      "ncs_loss": 0,
      "step": 13700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.553654743390357,
      "grad_norm": 0.7395095229148865,
      "learning_rate": 0.0001,
      "loss": 1.4057,
      "ncs_loss": 0,
      "step": 13750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.584758942457231,
      "grad_norm": 0.701950192451477,
      "learning_rate": 0.0001,
      "loss": 1.4248,
      "ncs_loss": 0,
      "step": 13800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.615863141524105,
      "grad_norm": 0.6794784069061279,
      "learning_rate": 0.0001,
      "loss": 1.4173,
      "ncs_loss": 0,
      "step": 13850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.64696734059098,
      "grad_norm": 0.759440541267395,
      "learning_rate": 0.0001,
      "loss": 1.4178,
      "ncs_loss": 0,
      "step": 13900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.678071539657854,
      "grad_norm": 0.7035039663314819,
      "learning_rate": 0.0001,
      "loss": 1.4234,
      "ncs_loss": 0,
      "step": 13950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.709175738724728,
      "grad_norm": 0.7139527797698975,
      "learning_rate": 0.0001,
      "loss": 1.4258,
      "ncs_loss": 0,
      "step": 14000,
      "z_loss": 0
    },
    {
      "epoch": 8.709175738724728,
      "eval_bleu": 13.4165,
      "eval_gen_len": 25.9011,
      "eval_loss": 2.346121311187744,
      "eval_runtime": 22.8371,
      "eval_samples_per_second": 43.832,
      "eval_steps_per_second": 1.401,
      "num_experts_activated": 0,
      "step": 14000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.740279937791602,
      "grad_norm": 0.8599777817726135,
      "learning_rate": 0.0001,
      "loss": 1.4157,
      "ncs_loss": 0,
      "step": 14050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.771384136858476,
      "grad_norm": 0.6641757488250732,
      "learning_rate": 0.0001,
      "loss": 1.4074,
      "ncs_loss": 0,
      "step": 14100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.80248833592535,
      "grad_norm": 0.7945736646652222,
      "learning_rate": 0.0001,
      "loss": 1.4111,
      "ncs_loss": 0,
      "step": 14150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.833592534992224,
      "grad_norm": 0.7907710671424866,
      "learning_rate": 0.0001,
      "loss": 1.4273,
      "ncs_loss": 0,
      "step": 14200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.864696734059098,
      "grad_norm": 0.7884650826454163,
      "learning_rate": 0.0001,
      "loss": 1.4208,
      "ncs_loss": 0,
      "step": 14250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.895800933125972,
      "grad_norm": 0.7572006583213806,
      "learning_rate": 0.0001,
      "loss": 1.4374,
      "ncs_loss": 0,
      "step": 14300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.926905132192847,
      "grad_norm": 0.6970269083976746,
      "learning_rate": 0.0001,
      "loss": 1.4189,
      "ncs_loss": 0,
      "step": 14350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.95800933125972,
      "grad_norm": 0.6657319664955139,
      "learning_rate": 0.0001,
      "loss": 1.4154,
      "ncs_loss": 0,
      "step": 14400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 8.989113530326595,
      "grad_norm": 0.6300028562545776,
      "learning_rate": 0.0001,
      "loss": 1.4078,
      "ncs_loss": 0,
      "step": 14450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.020217729393469,
      "grad_norm": 0.764212965965271,
      "learning_rate": 0.0001,
      "loss": 1.3911,
      "ncs_loss": 0,
      "step": 14500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.051321928460343,
      "grad_norm": 0.8007087707519531,
      "learning_rate": 0.0001,
      "loss": 1.3767,
      "ncs_loss": 0,
      "step": 14550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.082426127527215,
      "grad_norm": 0.7539001107215881,
      "learning_rate": 0.0001,
      "loss": 1.3841,
      "ncs_loss": 0,
      "step": 14600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.11353032659409,
      "grad_norm": 0.7592264413833618,
      "learning_rate": 0.0001,
      "loss": 1.3836,
      "ncs_loss": 0,
      "step": 14650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.144634525660964,
      "grad_norm": 0.7274162173271179,
      "learning_rate": 0.0001,
      "loss": 1.3803,
      "ncs_loss": 0,
      "step": 14700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.175738724727838,
      "grad_norm": 0.6704291105270386,
      "learning_rate": 0.0001,
      "loss": 1.4008,
      "ncs_loss": 0,
      "step": 14750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.206842923794712,
      "grad_norm": 0.6014906167984009,
      "learning_rate": 0.0001,
      "loss": 1.3781,
      "ncs_loss": 0,
      "step": 14800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.237947122861586,
      "grad_norm": 0.7308988571166992,
      "learning_rate": 0.0001,
      "loss": 1.3558,
      "ncs_loss": 0,
      "step": 14850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.26905132192846,
      "grad_norm": 0.6556388139724731,
      "learning_rate": 0.0001,
      "loss": 1.382,
      "ncs_loss": 0,
      "step": 14900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.300155520995334,
      "grad_norm": 0.6956447958946228,
      "learning_rate": 0.0001,
      "loss": 1.3757,
      "ncs_loss": 0,
      "step": 14950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.331259720062208,
      "grad_norm": 0.7242055535316467,
      "learning_rate": 0.0001,
      "loss": 1.3613,
      "ncs_loss": 0,
      "step": 15000,
      "z_loss": 0
    },
    {
      "epoch": 9.331259720062208,
      "eval_bleu": 13.8046,
      "eval_gen_len": 25.5145,
      "eval_loss": 2.322810411453247,
      "eval_runtime": 22.4457,
      "eval_samples_per_second": 44.597,
      "eval_steps_per_second": 1.426,
      "num_experts_activated": 0,
      "step": 15000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.362363919129082,
      "grad_norm": 0.717642068862915,
      "learning_rate": 0.0001,
      "loss": 1.3861,
      "ncs_loss": 0,
      "step": 15050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.393468118195957,
      "grad_norm": 0.6572015285491943,
      "learning_rate": 0.0001,
      "loss": 1.3562,
      "ncs_loss": 0,
      "step": 15100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.42457231726283,
      "grad_norm": 0.6848722100257874,
      "learning_rate": 0.0001,
      "loss": 1.382,
      "ncs_loss": 0,
      "step": 15150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.455676516329705,
      "grad_norm": 0.8103004693984985,
      "learning_rate": 0.0001,
      "loss": 1.3803,
      "ncs_loss": 0,
      "step": 15200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.486780715396579,
      "grad_norm": 0.6458554267883301,
      "learning_rate": 0.0001,
      "loss": 1.3636,
      "ncs_loss": 0,
      "step": 15250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.517884914463453,
      "grad_norm": 0.7710920572280884,
      "learning_rate": 0.0001,
      "loss": 1.3715,
      "ncs_loss": 0,
      "step": 15300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.548989113530327,
      "grad_norm": 0.7407307624816895,
      "learning_rate": 0.0001,
      "loss": 1.3675,
      "ncs_loss": 0,
      "step": 15350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.580093312597201,
      "grad_norm": 0.696341872215271,
      "learning_rate": 0.0001,
      "loss": 1.3781,
      "ncs_loss": 0,
      "step": 15400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.611197511664075,
      "grad_norm": 0.7589558362960815,
      "learning_rate": 0.0001,
      "loss": 1.3787,
      "ncs_loss": 0,
      "step": 15450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.64230171073095,
      "grad_norm": 0.7203845381736755,
      "learning_rate": 0.0001,
      "loss": 1.3672,
      "ncs_loss": 0,
      "step": 15500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.673405909797822,
      "grad_norm": 0.7311157584190369,
      "learning_rate": 0.0001,
      "loss": 1.3676,
      "ncs_loss": 0,
      "step": 15550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.704510108864696,
      "grad_norm": 0.7009518146514893,
      "learning_rate": 0.0001,
      "loss": 1.3603,
      "ncs_loss": 0,
      "step": 15600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.73561430793157,
      "grad_norm": 0.79195636510849,
      "learning_rate": 0.0001,
      "loss": 1.3694,
      "ncs_loss": 0,
      "step": 15650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.766718506998444,
      "grad_norm": 0.7056489586830139,
      "learning_rate": 0.0001,
      "loss": 1.3744,
      "ncs_loss": 0,
      "step": 15700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.797822706065318,
      "grad_norm": 0.6905682682991028,
      "learning_rate": 0.0001,
      "loss": 1.3605,
      "ncs_loss": 0,
      "step": 15750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.828926905132192,
      "grad_norm": 0.6669237613677979,
      "learning_rate": 0.0001,
      "loss": 1.3639,
      "ncs_loss": 0,
      "step": 15800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.860031104199066,
      "grad_norm": 0.6558691263198853,
      "learning_rate": 0.0001,
      "loss": 1.3556,
      "ncs_loss": 0,
      "step": 15850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.89113530326594,
      "grad_norm": 0.7286643981933594,
      "learning_rate": 0.0001,
      "loss": 1.3669,
      "ncs_loss": 0,
      "step": 15900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.922239502332815,
      "grad_norm": 0.7605267763137817,
      "learning_rate": 0.0001,
      "loss": 1.3532,
      "ncs_loss": 0,
      "step": 15950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.953343701399689,
      "grad_norm": 0.6555288434028625,
      "learning_rate": 0.0001,
      "loss": 1.3738,
      "ncs_loss": 0,
      "step": 16000,
      "z_loss": 0
    },
    {
      "epoch": 9.953343701399689,
      "eval_bleu": 13.964,
      "eval_gen_len": 25.0729,
      "eval_loss": 2.3098349571228027,
      "eval_runtime": 21.4918,
      "eval_samples_per_second": 46.576,
      "eval_steps_per_second": 1.489,
      "num_experts_activated": 0,
      "step": 16000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 9.984447900466563,
      "grad_norm": 0.6627906560897827,
      "learning_rate": 0.0001,
      "loss": 1.3807,
      "ncs_loss": 0,
      "step": 16050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.015552099533437,
      "grad_norm": 0.7764817476272583,
      "learning_rate": 0.0001,
      "loss": 1.3624,
      "ncs_loss": 0,
      "step": 16100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.046656298600311,
      "grad_norm": 0.8261045813560486,
      "learning_rate": 0.0001,
      "loss": 1.3337,
      "ncs_loss": 0,
      "step": 16150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.077760497667185,
      "grad_norm": 0.6145580410957336,
      "learning_rate": 0.0001,
      "loss": 1.3129,
      "ncs_loss": 0,
      "step": 16200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.10886469673406,
      "grad_norm": 0.6580919623374939,
      "learning_rate": 0.0001,
      "loss": 1.3151,
      "ncs_loss": 0,
      "step": 16250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.139968895800934,
      "grad_norm": 0.7973582148551941,
      "learning_rate": 0.0001,
      "loss": 1.32,
      "ncs_loss": 0,
      "step": 16300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.171073094867808,
      "grad_norm": 0.7675084471702576,
      "learning_rate": 0.0001,
      "loss": 1.3404,
      "ncs_loss": 0,
      "step": 16350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.202177293934682,
      "grad_norm": 0.6753829717636108,
      "learning_rate": 0.0001,
      "loss": 1.331,
      "ncs_loss": 0,
      "step": 16400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.233281493001556,
      "grad_norm": 0.7337088584899902,
      "learning_rate": 0.0001,
      "loss": 1.3348,
      "ncs_loss": 0,
      "step": 16450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.26438569206843,
      "grad_norm": 0.7281299829483032,
      "learning_rate": 0.0001,
      "loss": 1.3236,
      "ncs_loss": 0,
      "step": 16500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.295489891135304,
      "grad_norm": 0.6706132292747498,
      "learning_rate": 0.0001,
      "loss": 1.324,
      "ncs_loss": 0,
      "step": 16550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.326594090202176,
      "grad_norm": 0.6901679039001465,
      "learning_rate": 0.0001,
      "loss": 1.3415,
      "ncs_loss": 0,
      "step": 16600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.35769828926905,
      "grad_norm": 0.7114513516426086,
      "learning_rate": 0.0001,
      "loss": 1.3333,
      "ncs_loss": 0,
      "step": 16650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.388802488335925,
      "grad_norm": 0.7394422888755798,
      "learning_rate": 0.0001,
      "loss": 1.3225,
      "ncs_loss": 0,
      "step": 16700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.419906687402799,
      "grad_norm": 0.6934075951576233,
      "learning_rate": 0.0001,
      "loss": 1.3334,
      "ncs_loss": 0,
      "step": 16750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.451010886469673,
      "grad_norm": 0.6877675652503967,
      "learning_rate": 0.0001,
      "loss": 1.3236,
      "ncs_loss": 0,
      "step": 16800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.482115085536547,
      "grad_norm": 0.7297250032424927,
      "learning_rate": 0.0001,
      "loss": 1.3312,
      "ncs_loss": 0,
      "step": 16850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.513219284603421,
      "grad_norm": 0.7225440144538879,
      "learning_rate": 0.0001,
      "loss": 1.3402,
      "ncs_loss": 0,
      "step": 16900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.544323483670295,
      "grad_norm": 0.745179295539856,
      "learning_rate": 0.0001,
      "loss": 1.3316,
      "ncs_loss": 0,
      "step": 16950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.57542768273717,
      "grad_norm": 0.6771515011787415,
      "learning_rate": 0.0001,
      "loss": 1.3347,
      "ncs_loss": 0,
      "step": 17000,
      "z_loss": 0
    },
    {
      "epoch": 10.57542768273717,
      "eval_bleu": 14.1001,
      "eval_gen_len": 24.958,
      "eval_loss": 2.299508571624756,
      "eval_runtime": 21.5328,
      "eval_samples_per_second": 46.487,
      "eval_steps_per_second": 1.486,
      "num_experts_activated": 0,
      "step": 17000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.606531881804043,
      "grad_norm": 0.7173397541046143,
      "learning_rate": 0.0001,
      "loss": 1.3301,
      "ncs_loss": 0,
      "step": 17050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.637636080870918,
      "grad_norm": 0.6866978406906128,
      "learning_rate": 0.0001,
      "loss": 1.3282,
      "ncs_loss": 0,
      "step": 17100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.668740279937792,
      "grad_norm": 0.7156848907470703,
      "learning_rate": 0.0001,
      "loss": 1.326,
      "ncs_loss": 0,
      "step": 17150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.699844479004666,
      "grad_norm": 0.7024192810058594,
      "learning_rate": 0.0001,
      "loss": 1.313,
      "ncs_loss": 0,
      "step": 17200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.73094867807154,
      "grad_norm": 0.7239046096801758,
      "learning_rate": 0.0001,
      "loss": 1.3282,
      "ncs_loss": 0,
      "step": 17250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.762052877138414,
      "grad_norm": 0.6928796768188477,
      "learning_rate": 0.0001,
      "loss": 1.3426,
      "ncs_loss": 0,
      "step": 17300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.793157076205288,
      "grad_norm": 0.6604561805725098,
      "learning_rate": 0.0001,
      "loss": 1.3237,
      "ncs_loss": 0,
      "step": 17350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.824261275272162,
      "grad_norm": 0.6970577836036682,
      "learning_rate": 0.0001,
      "loss": 1.3186,
      "ncs_loss": 0,
      "step": 17400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.855365474339036,
      "grad_norm": 0.6598892211914062,
      "learning_rate": 0.0001,
      "loss": 1.3356,
      "ncs_loss": 0,
      "step": 17450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.88646967340591,
      "grad_norm": 0.6817348003387451,
      "learning_rate": 0.0001,
      "loss": 1.3241,
      "ncs_loss": 0,
      "step": 17500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.917573872472785,
      "grad_norm": 0.7504841089248657,
      "learning_rate": 0.0001,
      "loss": 1.3361,
      "ncs_loss": 0,
      "step": 17550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.948678071539657,
      "grad_norm": 0.7305567264556885,
      "learning_rate": 0.0001,
      "loss": 1.3265,
      "ncs_loss": 0,
      "step": 17600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 10.979782270606531,
      "grad_norm": 0.6663271188735962,
      "learning_rate": 0.0001,
      "loss": 1.3179,
      "ncs_loss": 0,
      "step": 17650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.010886469673405,
      "grad_norm": 0.7494781613349915,
      "learning_rate": 0.0001,
      "loss": 1.3168,
      "ncs_loss": 0,
      "step": 17700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.04199066874028,
      "grad_norm": 0.6750662922859192,
      "learning_rate": 0.0001,
      "loss": 1.2866,
      "ncs_loss": 0,
      "step": 17750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.073094867807153,
      "grad_norm": 0.7016321420669556,
      "learning_rate": 0.0001,
      "loss": 1.2752,
      "ncs_loss": 0,
      "step": 17800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.104199066874028,
      "grad_norm": 0.6725831031799316,
      "learning_rate": 0.0001,
      "loss": 1.2871,
      "ncs_loss": 0,
      "step": 17850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.135303265940902,
      "grad_norm": 0.7223321795463562,
      "learning_rate": 0.0001,
      "loss": 1.2906,
      "ncs_loss": 0,
      "step": 17900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.166407465007776,
      "grad_norm": 0.6598502397537231,
      "learning_rate": 0.0001,
      "loss": 1.2854,
      "ncs_loss": 0,
      "step": 17950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.19751166407465,
      "grad_norm": 0.6856986880302429,
      "learning_rate": 0.0001,
      "loss": 1.2906,
      "ncs_loss": 0,
      "step": 18000,
      "z_loss": 0
    },
    {
      "epoch": 11.19751166407465,
      "eval_bleu": 14.4495,
      "eval_gen_len": 25.4895,
      "eval_loss": 2.2753734588623047,
      "eval_runtime": 22.0883,
      "eval_samples_per_second": 45.318,
      "eval_steps_per_second": 1.449,
      "num_experts_activated": 0,
      "step": 18000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.228615863141524,
      "grad_norm": 0.7344130873680115,
      "learning_rate": 0.0001,
      "loss": 1.3014,
      "ncs_loss": 0,
      "step": 18050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.259720062208398,
      "grad_norm": 0.678490936756134,
      "learning_rate": 0.0001,
      "loss": 1.2983,
      "ncs_loss": 0,
      "step": 18100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.290824261275272,
      "grad_norm": 0.6729808449745178,
      "learning_rate": 0.0001,
      "loss": 1.2849,
      "ncs_loss": 0,
      "step": 18150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.321928460342146,
      "grad_norm": 0.6761835813522339,
      "learning_rate": 0.0001,
      "loss": 1.3076,
      "ncs_loss": 0,
      "step": 18200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.35303265940902,
      "grad_norm": 0.7206758856773376,
      "learning_rate": 0.0001,
      "loss": 1.3059,
      "ncs_loss": 0,
      "step": 18250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.384136858475895,
      "grad_norm": 0.6507746577262878,
      "learning_rate": 0.0001,
      "loss": 1.286,
      "ncs_loss": 0,
      "step": 18300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.415241057542769,
      "grad_norm": 0.7475978136062622,
      "learning_rate": 0.0001,
      "loss": 1.3005,
      "ncs_loss": 0,
      "step": 18350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.446345256609643,
      "grad_norm": 0.7489714622497559,
      "learning_rate": 0.0001,
      "loss": 1.2949,
      "ncs_loss": 0,
      "step": 18400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.477449455676517,
      "grad_norm": 0.7595177292823792,
      "learning_rate": 0.0001,
      "loss": 1.2874,
      "ncs_loss": 0,
      "step": 18450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.508553654743391,
      "grad_norm": 0.665416419506073,
      "learning_rate": 0.0001,
      "loss": 1.2979,
      "ncs_loss": 0,
      "step": 18500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.539657853810265,
      "grad_norm": 0.7576204538345337,
      "learning_rate": 0.0001,
      "loss": 1.3025,
      "ncs_loss": 0,
      "step": 18550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.57076205287714,
      "grad_norm": 0.7081025838851929,
      "learning_rate": 0.0001,
      "loss": 1.2957,
      "ncs_loss": 0,
      "step": 18600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.601866251944012,
      "grad_norm": 0.7429519891738892,
      "learning_rate": 0.0001,
      "loss": 1.2903,
      "ncs_loss": 0,
      "step": 18650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.632970451010886,
      "grad_norm": 0.7910618782043457,
      "learning_rate": 0.0001,
      "loss": 1.294,
      "ncs_loss": 0,
      "step": 18700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.66407465007776,
      "grad_norm": 0.7014482617378235,
      "learning_rate": 0.0001,
      "loss": 1.2868,
      "ncs_loss": 0,
      "step": 18750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.695178849144634,
      "grad_norm": 0.712134599685669,
      "learning_rate": 0.0001,
      "loss": 1.2855,
      "ncs_loss": 0,
      "step": 18800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.726283048211508,
      "grad_norm": 0.8128920197486877,
      "learning_rate": 0.0001,
      "loss": 1.2803,
      "ncs_loss": 0,
      "step": 18850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.757387247278382,
      "grad_norm": 0.7591486573219299,
      "learning_rate": 0.0001,
      "loss": 1.2971,
      "ncs_loss": 0,
      "step": 18900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.788491446345256,
      "grad_norm": 0.7142835259437561,
      "learning_rate": 0.0001,
      "loss": 1.2826,
      "ncs_loss": 0,
      "step": 18950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.81959564541213,
      "grad_norm": 0.6718540191650391,
      "learning_rate": 0.0001,
      "loss": 1.2901,
      "ncs_loss": 0,
      "step": 19000,
      "z_loss": 0
    },
    {
      "epoch": 11.81959564541213,
      "eval_bleu": 14.5571,
      "eval_gen_len": 24.8462,
      "eval_loss": 2.2634835243225098,
      "eval_runtime": 21.3898,
      "eval_samples_per_second": 46.798,
      "eval_steps_per_second": 1.496,
      "num_experts_activated": 0,
      "step": 19000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.850699844479005,
      "grad_norm": 0.654946506023407,
      "learning_rate": 0.0001,
      "loss": 1.2943,
      "ncs_loss": 0,
      "step": 19050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.881804043545879,
      "grad_norm": 0.631859302520752,
      "learning_rate": 0.0001,
      "loss": 1.2988,
      "ncs_loss": 0,
      "step": 19100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.912908242612753,
      "grad_norm": 0.6402826309204102,
      "learning_rate": 0.0001,
      "loss": 1.2976,
      "ncs_loss": 0,
      "step": 19150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.944012441679627,
      "grad_norm": 0.7270950675010681,
      "learning_rate": 0.0001,
      "loss": 1.2856,
      "ncs_loss": 0,
      "step": 19200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 11.975116640746501,
      "grad_norm": 0.730958104133606,
      "learning_rate": 0.0001,
      "loss": 1.2697,
      "ncs_loss": 0,
      "step": 19250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.006220839813375,
      "grad_norm": 0.6605547666549683,
      "learning_rate": 0.0001,
      "loss": 1.2827,
      "ncs_loss": 0,
      "step": 19300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.03732503888025,
      "grad_norm": 0.7265118956565857,
      "learning_rate": 0.0001,
      "loss": 1.2625,
      "ncs_loss": 0,
      "step": 19350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.068429237947123,
      "grad_norm": 0.6727826595306396,
      "learning_rate": 0.0001,
      "loss": 1.2619,
      "ncs_loss": 0,
      "step": 19400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.099533437013998,
      "grad_norm": 0.7875038385391235,
      "learning_rate": 0.0001,
      "loss": 1.268,
      "ncs_loss": 0,
      "step": 19450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.130637636080872,
      "grad_norm": 0.6788875460624695,
      "learning_rate": 0.0001,
      "loss": 1.2629,
      "ncs_loss": 0,
      "step": 19500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.161741835147746,
      "grad_norm": 0.6744088530540466,
      "learning_rate": 0.0001,
      "loss": 1.2521,
      "ncs_loss": 0,
      "step": 19550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.192846034214618,
      "grad_norm": 0.7160521149635315,
      "learning_rate": 0.0001,
      "loss": 1.2702,
      "ncs_loss": 0,
      "step": 19600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.223950233281492,
      "grad_norm": 0.7148823738098145,
      "learning_rate": 0.0001,
      "loss": 1.25,
      "ncs_loss": 0,
      "step": 19650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.255054432348366,
      "grad_norm": 0.7631177306175232,
      "learning_rate": 0.0001,
      "loss": 1.2627,
      "ncs_loss": 0,
      "step": 19700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.28615863141524,
      "grad_norm": 0.6930215954780579,
      "learning_rate": 0.0001,
      "loss": 1.2411,
      "ncs_loss": 0,
      "step": 19750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.317262830482115,
      "grad_norm": 0.6973368525505066,
      "learning_rate": 0.0001,
      "loss": 1.2519,
      "ncs_loss": 0,
      "step": 19800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.348367029548989,
      "grad_norm": 0.6911160945892334,
      "learning_rate": 0.0001,
      "loss": 1.244,
      "ncs_loss": 0,
      "step": 19850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.379471228615863,
      "grad_norm": 0.6588529944419861,
      "learning_rate": 0.0001,
      "loss": 1.2512,
      "ncs_loss": 0,
      "step": 19900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.410575427682737,
      "grad_norm": 0.6884719133377075,
      "learning_rate": 0.0001,
      "loss": 1.2612,
      "ncs_loss": 0,
      "step": 19950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.441679626749611,
      "grad_norm": 0.6726409196853638,
      "learning_rate": 0.0001,
      "loss": 1.2377,
      "ncs_loss": 0,
      "step": 20000,
      "z_loss": 0
    },
    {
      "epoch": 12.441679626749611,
      "eval_bleu": 14.7131,
      "eval_gen_len": 24.8891,
      "eval_loss": 2.248210906982422,
      "eval_runtime": 21.8545,
      "eval_samples_per_second": 45.803,
      "eval_steps_per_second": 1.464,
      "num_experts_activated": 0,
      "step": 20000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.472783825816485,
      "grad_norm": 0.689416766166687,
      "learning_rate": 0.0001,
      "loss": 1.2508,
      "ncs_loss": 0,
      "step": 20050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.50388802488336,
      "grad_norm": 0.689529299736023,
      "learning_rate": 0.0001,
      "loss": 1.2623,
      "ncs_loss": 0,
      "step": 20100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.534992223950233,
      "grad_norm": 0.7163055539131165,
      "learning_rate": 0.0001,
      "loss": 1.2493,
      "ncs_loss": 0,
      "step": 20150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.566096423017107,
      "grad_norm": 0.654973566532135,
      "learning_rate": 0.0001,
      "loss": 1.252,
      "ncs_loss": 0,
      "step": 20200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.597200622083982,
      "grad_norm": 0.6973863840103149,
      "learning_rate": 0.0001,
      "loss": 1.2569,
      "ncs_loss": 0,
      "step": 20250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.628304821150856,
      "grad_norm": 0.6740834712982178,
      "learning_rate": 0.0001,
      "loss": 1.2617,
      "ncs_loss": 0,
      "step": 20300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.65940902021773,
      "grad_norm": 0.7623605728149414,
      "learning_rate": 0.0001,
      "loss": 1.2591,
      "ncs_loss": 0,
      "step": 20350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.690513219284604,
      "grad_norm": 0.6374738216400146,
      "learning_rate": 0.0001,
      "loss": 1.2632,
      "ncs_loss": 0,
      "step": 20400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.721617418351478,
      "grad_norm": 0.7013562321662903,
      "learning_rate": 0.0001,
      "loss": 1.2563,
      "ncs_loss": 0,
      "step": 20450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.752721617418352,
      "grad_norm": 0.6899669170379639,
      "learning_rate": 0.0001,
      "loss": 1.2671,
      "ncs_loss": 0,
      "step": 20500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.783825816485226,
      "grad_norm": 0.710989236831665,
      "learning_rate": 0.0001,
      "loss": 1.2576,
      "ncs_loss": 0,
      "step": 20550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.8149300155521,
      "grad_norm": 0.682368278503418,
      "learning_rate": 0.0001,
      "loss": 1.2509,
      "ncs_loss": 0,
      "step": 20600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.846034214618973,
      "grad_norm": 0.7471264600753784,
      "learning_rate": 0.0001,
      "loss": 1.2581,
      "ncs_loss": 0,
      "step": 20650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.877138413685847,
      "grad_norm": 0.7717297673225403,
      "learning_rate": 0.0001,
      "loss": 1.2597,
      "ncs_loss": 0,
      "step": 20700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.908242612752721,
      "grad_norm": 0.7478277087211609,
      "learning_rate": 0.0001,
      "loss": 1.2542,
      "ncs_loss": 0,
      "step": 20750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.939346811819595,
      "grad_norm": 0.5876442193984985,
      "learning_rate": 0.0001,
      "loss": 1.2582,
      "ncs_loss": 0,
      "step": 20800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 12.97045101088647,
      "grad_norm": 0.7028098106384277,
      "learning_rate": 0.0001,
      "loss": 1.2541,
      "ncs_loss": 0,
      "step": 20850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.001555209953343,
      "grad_norm": 0.6997610330581665,
      "learning_rate": 0.0001,
      "loss": 1.2416,
      "ncs_loss": 0,
      "step": 20900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.032659409020217,
      "grad_norm": 0.6791537404060364,
      "learning_rate": 0.0001,
      "loss": 1.2292,
      "ncs_loss": 0,
      "step": 20950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.063763608087092,
      "grad_norm": 0.7091682553291321,
      "learning_rate": 0.0001,
      "loss": 1.2295,
      "ncs_loss": 0,
      "step": 21000,
      "z_loss": 0
    },
    {
      "epoch": 13.063763608087092,
      "eval_bleu": 14.8771,
      "eval_gen_len": 25.033,
      "eval_loss": 2.2462332248687744,
      "eval_runtime": 21.5346,
      "eval_samples_per_second": 46.483,
      "eval_steps_per_second": 1.486,
      "num_experts_activated": 0,
      "step": 21000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.094867807153966,
      "grad_norm": 0.7100517749786377,
      "learning_rate": 0.0001,
      "loss": 1.2243,
      "ncs_loss": 0,
      "step": 21050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.12597200622084,
      "grad_norm": 0.7315483689308167,
      "learning_rate": 0.0001,
      "loss": 1.2193,
      "ncs_loss": 0,
      "step": 21100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.157076205287714,
      "grad_norm": 0.7001681327819824,
      "learning_rate": 0.0001,
      "loss": 1.2279,
      "ncs_loss": 0,
      "step": 21150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.188180404354588,
      "grad_norm": 0.6758390069007874,
      "learning_rate": 0.0001,
      "loss": 1.2218,
      "ncs_loss": 0,
      "step": 21200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.219284603421462,
      "grad_norm": 0.7602015137672424,
      "learning_rate": 0.0001,
      "loss": 1.2294,
      "ncs_loss": 0,
      "step": 21250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.250388802488336,
      "grad_norm": 0.7197219729423523,
      "learning_rate": 0.0001,
      "loss": 1.2276,
      "ncs_loss": 0,
      "step": 21300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.28149300155521,
      "grad_norm": 0.6974360346794128,
      "learning_rate": 0.0001,
      "loss": 1.2276,
      "ncs_loss": 0,
      "step": 21350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.312597200622085,
      "grad_norm": 0.7138542532920837,
      "learning_rate": 0.0001,
      "loss": 1.2335,
      "ncs_loss": 0,
      "step": 21400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.343701399688959,
      "grad_norm": 0.671251654624939,
      "learning_rate": 0.0001,
      "loss": 1.2108,
      "ncs_loss": 0,
      "step": 21450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.374805598755833,
      "grad_norm": 0.7965624332427979,
      "learning_rate": 0.0001,
      "loss": 1.2244,
      "ncs_loss": 0,
      "step": 21500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.405909797822707,
      "grad_norm": 0.6818114519119263,
      "learning_rate": 0.0001,
      "loss": 1.2327,
      "ncs_loss": 0,
      "step": 21550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.43701399688958,
      "grad_norm": 0.6797926425933838,
      "learning_rate": 0.0001,
      "loss": 1.2254,
      "ncs_loss": 0,
      "step": 21600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.468118195956453,
      "grad_norm": 0.747142493724823,
      "learning_rate": 0.0001,
      "loss": 1.2208,
      "ncs_loss": 0,
      "step": 21650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.499222395023327,
      "grad_norm": 0.7671715617179871,
      "learning_rate": 0.0001,
      "loss": 1.2395,
      "ncs_loss": 0,
      "step": 21700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.530326594090202,
      "grad_norm": 0.6969404220581055,
      "learning_rate": 0.0001,
      "loss": 1.2369,
      "ncs_loss": 0,
      "step": 21750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.561430793157076,
      "grad_norm": 0.7787137627601624,
      "learning_rate": 0.0001,
      "loss": 1.227,
      "ncs_loss": 0,
      "step": 21800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.59253499222395,
      "grad_norm": 0.654651403427124,
      "learning_rate": 0.0001,
      "loss": 1.2317,
      "ncs_loss": 0,
      "step": 21850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.623639191290824,
      "grad_norm": 0.6872789859771729,
      "learning_rate": 0.0001,
      "loss": 1.2244,
      "ncs_loss": 0,
      "step": 21900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.654743390357698,
      "grad_norm": 0.7452161312103271,
      "learning_rate": 0.0001,
      "loss": 1.236,
      "ncs_loss": 0,
      "step": 21950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.685847589424572,
      "grad_norm": 0.8452961444854736,
      "learning_rate": 0.0001,
      "loss": 1.2367,
      "ncs_loss": 0,
      "step": 22000,
      "z_loss": 0
    },
    {
      "epoch": 13.685847589424572,
      "eval_bleu": 14.8081,
      "eval_gen_len": 24.8971,
      "eval_loss": 2.23152494430542,
      "eval_runtime": 21.5827,
      "eval_samples_per_second": 46.38,
      "eval_steps_per_second": 1.483,
      "num_experts_activated": 0,
      "step": 22000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.716951788491446,
      "grad_norm": 0.8330351710319519,
      "learning_rate": 0.0001,
      "loss": 1.2145,
      "ncs_loss": 0,
      "step": 22050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.74805598755832,
      "grad_norm": 0.6760596036911011,
      "learning_rate": 0.0001,
      "loss": 1.2139,
      "ncs_loss": 0,
      "step": 22100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.779160186625194,
      "grad_norm": 0.7106301784515381,
      "learning_rate": 0.0001,
      "loss": 1.2345,
      "ncs_loss": 0,
      "step": 22150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.810264385692069,
      "grad_norm": 0.7087702751159668,
      "learning_rate": 0.0001,
      "loss": 1.218,
      "ncs_loss": 0,
      "step": 22200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.841368584758943,
      "grad_norm": 0.7075973153114319,
      "learning_rate": 0.0001,
      "loss": 1.2106,
      "ncs_loss": 0,
      "step": 22250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.872472783825817,
      "grad_norm": 0.6359402537345886,
      "learning_rate": 0.0001,
      "loss": 1.215,
      "ncs_loss": 0,
      "step": 22300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.903576982892691,
      "grad_norm": 0.7361077666282654,
      "learning_rate": 0.0001,
      "loss": 1.2184,
      "ncs_loss": 0,
      "step": 22350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.934681181959565,
      "grad_norm": 0.7260780930519104,
      "learning_rate": 0.0001,
      "loss": 1.2266,
      "ncs_loss": 0,
      "step": 22400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.96578538102644,
      "grad_norm": 0.8029056787490845,
      "learning_rate": 0.0001,
      "loss": 1.2272,
      "ncs_loss": 0,
      "step": 22450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 13.996889580093313,
      "grad_norm": 0.7511956095695496,
      "learning_rate": 0.0001,
      "loss": 1.2238,
      "ncs_loss": 0,
      "step": 22500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.027993779160187,
      "grad_norm": 0.8188709616661072,
      "learning_rate": 0.0001,
      "loss": 1.1953,
      "ncs_loss": 0,
      "step": 22550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.059097978227062,
      "grad_norm": 0.7116243839263916,
      "learning_rate": 0.0001,
      "loss": 1.1883,
      "ncs_loss": 0,
      "step": 22600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.090202177293934,
      "grad_norm": 0.6936274170875549,
      "learning_rate": 0.0001,
      "loss": 1.1957,
      "ncs_loss": 0,
      "step": 22650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.121306376360808,
      "grad_norm": 0.6866453289985657,
      "learning_rate": 0.0001,
      "loss": 1.1855,
      "ncs_loss": 0,
      "step": 22700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.152410575427682,
      "grad_norm": 0.6907174587249756,
      "learning_rate": 0.0001,
      "loss": 1.1997,
      "ncs_loss": 0,
      "step": 22750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.183514774494556,
      "grad_norm": 0.7195345163345337,
      "learning_rate": 0.0001,
      "loss": 1.1998,
      "ncs_loss": 0,
      "step": 22800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.21461897356143,
      "grad_norm": 0.6847643852233887,
      "learning_rate": 0.0001,
      "loss": 1.1851,
      "ncs_loss": 0,
      "step": 22850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.245723172628304,
      "grad_norm": 0.6818312406539917,
      "learning_rate": 0.0001,
      "loss": 1.1981,
      "ncs_loss": 0,
      "step": 22900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.276827371695179,
      "grad_norm": 0.5990758538246155,
      "learning_rate": 0.0001,
      "loss": 1.188,
      "ncs_loss": 0,
      "step": 22950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.307931570762053,
      "grad_norm": 0.6545243859291077,
      "learning_rate": 0.0001,
      "loss": 1.1905,
      "ncs_loss": 0,
      "step": 23000,
      "z_loss": 0
    },
    {
      "epoch": 14.307931570762053,
      "eval_bleu": 15.1784,
      "eval_gen_len": 24.7832,
      "eval_loss": 2.2251977920532227,
      "eval_runtime": 21.9822,
      "eval_samples_per_second": 45.537,
      "eval_steps_per_second": 1.456,
      "num_experts_activated": 0,
      "step": 23000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.339035769828927,
      "grad_norm": 0.639619767665863,
      "learning_rate": 0.0001,
      "loss": 1.2074,
      "ncs_loss": 0,
      "step": 23050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.370139968895801,
      "grad_norm": 0.7331093549728394,
      "learning_rate": 0.0001,
      "loss": 1.2091,
      "ncs_loss": 0,
      "step": 23100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.401244167962675,
      "grad_norm": 0.7007873058319092,
      "learning_rate": 0.0001,
      "loss": 1.2032,
      "ncs_loss": 0,
      "step": 23150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.43234836702955,
      "grad_norm": 0.730925977230072,
      "learning_rate": 0.0001,
      "loss": 1.1975,
      "ncs_loss": 0,
      "step": 23200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.463452566096423,
      "grad_norm": 0.7813982963562012,
      "learning_rate": 0.0001,
      "loss": 1.2112,
      "ncs_loss": 0,
      "step": 23250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.494556765163297,
      "grad_norm": 0.7135423421859741,
      "learning_rate": 0.0001,
      "loss": 1.1956,
      "ncs_loss": 0,
      "step": 23300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.525660964230172,
      "grad_norm": 0.6801045536994934,
      "learning_rate": 0.0001,
      "loss": 1.1954,
      "ncs_loss": 0,
      "step": 23350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.556765163297046,
      "grad_norm": 0.666974663734436,
      "learning_rate": 0.0001,
      "loss": 1.1825,
      "ncs_loss": 0,
      "step": 23400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.58786936236392,
      "grad_norm": 0.695976197719574,
      "learning_rate": 0.0001,
      "loss": 1.2,
      "ncs_loss": 0,
      "step": 23450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.618973561430794,
      "grad_norm": 0.6246817708015442,
      "learning_rate": 0.0001,
      "loss": 1.1929,
      "ncs_loss": 0,
      "step": 23500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.650077760497668,
      "grad_norm": 0.6575784683227539,
      "learning_rate": 0.0001,
      "loss": 1.2021,
      "ncs_loss": 0,
      "step": 23550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.68118195956454,
      "grad_norm": 0.7454800009727478,
      "learning_rate": 0.0001,
      "loss": 1.2038,
      "ncs_loss": 0,
      "step": 23600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.712286158631414,
      "grad_norm": 0.6489065885543823,
      "learning_rate": 0.0001,
      "loss": 1.2062,
      "ncs_loss": 0,
      "step": 23650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.743390357698289,
      "grad_norm": 0.6457154750823975,
      "learning_rate": 0.0001,
      "loss": 1.1844,
      "ncs_loss": 0,
      "step": 23700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.774494556765163,
      "grad_norm": 0.8824776411056519,
      "learning_rate": 0.0001,
      "loss": 1.1984,
      "ncs_loss": 0,
      "step": 23750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.805598755832037,
      "grad_norm": 0.6118784546852112,
      "learning_rate": 0.0001,
      "loss": 1.1999,
      "ncs_loss": 0,
      "step": 23800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.836702954898911,
      "grad_norm": 0.6949535608291626,
      "learning_rate": 0.0001,
      "loss": 1.1888,
      "ncs_loss": 0,
      "step": 23850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.867807153965785,
      "grad_norm": 0.7242018580436707,
      "learning_rate": 0.0001,
      "loss": 1.197,
      "ncs_loss": 0,
      "step": 23900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.89891135303266,
      "grad_norm": 0.654837965965271,
      "learning_rate": 0.0001,
      "loss": 1.214,
      "ncs_loss": 0,
      "step": 23950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.930015552099533,
      "grad_norm": 0.6579463481903076,
      "learning_rate": 0.0001,
      "loss": 1.1948,
      "ncs_loss": 0,
      "step": 24000,
      "z_loss": 0
    },
    {
      "epoch": 14.930015552099533,
      "eval_bleu": 15.7014,
      "eval_gen_len": 25.1568,
      "eval_loss": 2.201793909072876,
      "eval_runtime": 21.7181,
      "eval_samples_per_second": 46.091,
      "eval_steps_per_second": 1.473,
      "num_experts_activated": 0,
      "step": 24000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.961119751166407,
      "grad_norm": 0.7507036924362183,
      "learning_rate": 0.0001,
      "loss": 1.1907,
      "ncs_loss": 0,
      "step": 24050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 14.992223950233281,
      "grad_norm": 0.7117813229560852,
      "learning_rate": 0.0001,
      "loss": 1.2063,
      "ncs_loss": 0,
      "step": 24100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.023328149300156,
      "grad_norm": 0.7613744735717773,
      "learning_rate": 0.0001,
      "loss": 1.1773,
      "ncs_loss": 0,
      "step": 24150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.05443234836703,
      "grad_norm": 0.6058239340782166,
      "learning_rate": 0.0001,
      "loss": 1.1619,
      "ncs_loss": 0,
      "step": 24200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.085536547433904,
      "grad_norm": 0.7379368543624878,
      "learning_rate": 0.0001,
      "loss": 1.1805,
      "ncs_loss": 0,
      "step": 24250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.116640746500778,
      "grad_norm": 0.6918260455131531,
      "learning_rate": 0.0001,
      "loss": 1.1722,
      "ncs_loss": 0,
      "step": 24300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.147744945567652,
      "grad_norm": 0.650117039680481,
      "learning_rate": 0.0001,
      "loss": 1.1701,
      "ncs_loss": 0,
      "step": 24350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.178849144634526,
      "grad_norm": 0.7047845125198364,
      "learning_rate": 0.0001,
      "loss": 1.1585,
      "ncs_loss": 0,
      "step": 24400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.2099533437014,
      "grad_norm": 0.6672028303146362,
      "learning_rate": 0.0001,
      "loss": 1.1766,
      "ncs_loss": 0,
      "step": 24450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.241057542768274,
      "grad_norm": 0.6426053643226624,
      "learning_rate": 0.0001,
      "loss": 1.1766,
      "ncs_loss": 0,
      "step": 24500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.272161741835149,
      "grad_norm": 0.7038301825523376,
      "learning_rate": 0.0001,
      "loss": 1.172,
      "ncs_loss": 0,
      "step": 24550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.303265940902023,
      "grad_norm": 0.7068696618080139,
      "learning_rate": 0.0001,
      "loss": 1.169,
      "ncs_loss": 0,
      "step": 24600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.334370139968895,
      "grad_norm": 0.6579883098602295,
      "learning_rate": 0.0001,
      "loss": 1.1633,
      "ncs_loss": 0,
      "step": 24650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.365474339035769,
      "grad_norm": 0.735519528388977,
      "learning_rate": 0.0001,
      "loss": 1.1741,
      "ncs_loss": 0,
      "step": 24700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.396578538102643,
      "grad_norm": 0.7860269546508789,
      "learning_rate": 0.0001,
      "loss": 1.1857,
      "ncs_loss": 0,
      "step": 24750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.427682737169517,
      "grad_norm": 0.770208477973938,
      "learning_rate": 0.0001,
      "loss": 1.1788,
      "ncs_loss": 0,
      "step": 24800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.458786936236391,
      "grad_norm": 0.7459717392921448,
      "learning_rate": 0.0001,
      "loss": 1.1696,
      "ncs_loss": 0,
      "step": 24850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.489891135303266,
      "grad_norm": 0.6855157613754272,
      "learning_rate": 0.0001,
      "loss": 1.1697,
      "ncs_loss": 0,
      "step": 24900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.52099533437014,
      "grad_norm": 0.7304083108901978,
      "learning_rate": 0.0001,
      "loss": 1.1626,
      "ncs_loss": 0,
      "step": 24950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.552099533437014,
      "grad_norm": 0.7334199547767639,
      "learning_rate": 0.0001,
      "loss": 1.1626,
      "ncs_loss": 0,
      "step": 25000,
      "z_loss": 0
    },
    {
      "epoch": 15.552099533437014,
      "eval_bleu": 16.0292,
      "eval_gen_len": 25.1009,
      "eval_loss": 2.2085118293762207,
      "eval_runtime": 21.8851,
      "eval_samples_per_second": 45.739,
      "eval_steps_per_second": 1.462,
      "num_experts_activated": 0,
      "step": 25000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.583203732503888,
      "grad_norm": 0.7547840476036072,
      "learning_rate": 0.0001,
      "loss": 1.1647,
      "ncs_loss": 0,
      "step": 25050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.614307931570762,
      "grad_norm": 0.6498019695281982,
      "learning_rate": 0.0001,
      "loss": 1.1723,
      "ncs_loss": 0,
      "step": 25100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.645412130637636,
      "grad_norm": 0.709156334400177,
      "learning_rate": 0.0001,
      "loss": 1.1563,
      "ncs_loss": 0,
      "step": 25150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.67651632970451,
      "grad_norm": 0.656298816204071,
      "learning_rate": 0.0001,
      "loss": 1.167,
      "ncs_loss": 0,
      "step": 25200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.707620528771384,
      "grad_norm": 0.7424668669700623,
      "learning_rate": 0.0001,
      "loss": 1.1631,
      "ncs_loss": 0,
      "step": 25250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.738724727838258,
      "grad_norm": 0.771636962890625,
      "learning_rate": 0.0001,
      "loss": 1.185,
      "ncs_loss": 0,
      "step": 25300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.769828926905133,
      "grad_norm": 0.6964776515960693,
      "learning_rate": 0.0001,
      "loss": 1.1812,
      "ncs_loss": 0,
      "step": 25350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.800933125972007,
      "grad_norm": 0.6253610253334045,
      "learning_rate": 0.0001,
      "loss": 1.1569,
      "ncs_loss": 0,
      "step": 25400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.83203732503888,
      "grad_norm": 0.8397065997123718,
      "learning_rate": 0.0001,
      "loss": 1.1676,
      "ncs_loss": 0,
      "step": 25450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.863141524105755,
      "grad_norm": 0.742060661315918,
      "learning_rate": 0.0001,
      "loss": 1.1783,
      "ncs_loss": 0,
      "step": 25500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.894245723172629,
      "grad_norm": 0.731084406375885,
      "learning_rate": 0.0001,
      "loss": 1.1706,
      "ncs_loss": 0,
      "step": 25550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.925349922239501,
      "grad_norm": 0.7318170070648193,
      "learning_rate": 0.0001,
      "loss": 1.1768,
      "ncs_loss": 0,
      "step": 25600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.956454121306376,
      "grad_norm": 0.6327176690101624,
      "learning_rate": 0.0001,
      "loss": 1.1721,
      "ncs_loss": 0,
      "step": 25650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 15.98755832037325,
      "grad_norm": 0.689170777797699,
      "learning_rate": 0.0001,
      "loss": 1.1713,
      "ncs_loss": 0,
      "step": 25700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.018662519440124,
      "grad_norm": 0.7788326144218445,
      "learning_rate": 0.0001,
      "loss": 1.1469,
      "ncs_loss": 0,
      "step": 25750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.049766718506998,
      "grad_norm": 0.669535219669342,
      "learning_rate": 0.0001,
      "loss": 1.1436,
      "ncs_loss": 0,
      "step": 25800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.080870917573872,
      "grad_norm": 0.7387998104095459,
      "learning_rate": 0.0001,
      "loss": 1.1392,
      "ncs_loss": 0,
      "step": 25850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.111975116640746,
      "grad_norm": 0.7074490189552307,
      "learning_rate": 0.0001,
      "loss": 1.1353,
      "ncs_loss": 0,
      "step": 25900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.14307931570762,
      "grad_norm": 0.7487772107124329,
      "learning_rate": 0.0001,
      "loss": 1.1433,
      "ncs_loss": 0,
      "step": 25950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.174183514774494,
      "grad_norm": 0.6636650562286377,
      "learning_rate": 0.0001,
      "loss": 1.1534,
      "ncs_loss": 0,
      "step": 26000,
      "z_loss": 0
    },
    {
      "epoch": 16.174183514774494,
      "eval_bleu": 16.0306,
      "eval_gen_len": 25.1489,
      "eval_loss": 2.1954784393310547,
      "eval_runtime": 22.0618,
      "eval_samples_per_second": 45.373,
      "eval_steps_per_second": 1.45,
      "num_experts_activated": 0,
      "step": 26000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.20528771384137,
      "grad_norm": 0.7326486110687256,
      "learning_rate": 0.0001,
      "loss": 1.1435,
      "ncs_loss": 0,
      "step": 26050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.236391912908243,
      "grad_norm": 0.6266266703605652,
      "learning_rate": 0.0001,
      "loss": 1.1294,
      "ncs_loss": 0,
      "step": 26100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.267496111975117,
      "grad_norm": 0.6822516918182373,
      "learning_rate": 0.0001,
      "loss": 1.1533,
      "ncs_loss": 0,
      "step": 26150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.29860031104199,
      "grad_norm": 0.6802425980567932,
      "learning_rate": 0.0001,
      "loss": 1.1474,
      "ncs_loss": 0,
      "step": 26200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.329704510108865,
      "grad_norm": 0.686890184879303,
      "learning_rate": 0.0001,
      "loss": 1.1438,
      "ncs_loss": 0,
      "step": 26250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.36080870917574,
      "grad_norm": 0.7171601057052612,
      "learning_rate": 0.0001,
      "loss": 1.1595,
      "ncs_loss": 0,
      "step": 26300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.391912908242613,
      "grad_norm": 0.691798746585846,
      "learning_rate": 0.0001,
      "loss": 1.1391,
      "ncs_loss": 0,
      "step": 26350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.423017107309487,
      "grad_norm": 0.7723039984703064,
      "learning_rate": 0.0001,
      "loss": 1.1653,
      "ncs_loss": 0,
      "step": 26400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.45412130637636,
      "grad_norm": 0.7102906703948975,
      "learning_rate": 0.0001,
      "loss": 1.1383,
      "ncs_loss": 0,
      "step": 26450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.485225505443236,
      "grad_norm": 0.7537880539894104,
      "learning_rate": 0.0001,
      "loss": 1.136,
      "ncs_loss": 0,
      "step": 26500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.51632970451011,
      "grad_norm": 0.7178561091423035,
      "learning_rate": 0.0001,
      "loss": 1.1462,
      "ncs_loss": 0,
      "step": 26550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.547433903576984,
      "grad_norm": 0.6722205281257629,
      "learning_rate": 0.0001,
      "loss": 1.1485,
      "ncs_loss": 0,
      "step": 26600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.578538102643858,
      "grad_norm": 0.6324630975723267,
      "learning_rate": 0.0001,
      "loss": 1.1359,
      "ncs_loss": 0,
      "step": 26650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.609642301710732,
      "grad_norm": 0.6152082681655884,
      "learning_rate": 0.0001,
      "loss": 1.1574,
      "ncs_loss": 0,
      "step": 26700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.640746500777606,
      "grad_norm": 0.8060001730918884,
      "learning_rate": 0.0001,
      "loss": 1.1384,
      "ncs_loss": 0,
      "step": 26750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.67185069984448,
      "grad_norm": 0.7861388921737671,
      "learning_rate": 0.0001,
      "loss": 1.1547,
      "ncs_loss": 0,
      "step": 26800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.702954898911354,
      "grad_norm": 0.6793785095214844,
      "learning_rate": 0.0001,
      "loss": 1.155,
      "ncs_loss": 0,
      "step": 26850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.73405909797823,
      "grad_norm": 0.7390836477279663,
      "learning_rate": 0.0001,
      "loss": 1.1583,
      "ncs_loss": 0,
      "step": 26900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.765163297045103,
      "grad_norm": 0.6468662023544312,
      "learning_rate": 0.0001,
      "loss": 1.1505,
      "ncs_loss": 0,
      "step": 26950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.796267496111977,
      "grad_norm": 0.7736794948577881,
      "learning_rate": 0.0001,
      "loss": 1.153,
      "ncs_loss": 0,
      "step": 27000,
      "z_loss": 0
    },
    {
      "epoch": 16.796267496111977,
      "eval_bleu": 16.1658,
      "eval_gen_len": 24.975,
      "eval_loss": 2.189488410949707,
      "eval_runtime": 21.4994,
      "eval_samples_per_second": 46.559,
      "eval_steps_per_second": 1.488,
      "num_experts_activated": 0,
      "step": 27000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.82737169517885,
      "grad_norm": 0.7141112089157104,
      "learning_rate": 0.0001,
      "loss": 1.1589,
      "ncs_loss": 0,
      "step": 27050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.85847589424572,
      "grad_norm": 0.7730534672737122,
      "learning_rate": 0.0001,
      "loss": 1.1259,
      "ncs_loss": 0,
      "step": 27100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.889580093312595,
      "grad_norm": 0.7114640474319458,
      "learning_rate": 0.0001,
      "loss": 1.1544,
      "ncs_loss": 0,
      "step": 27150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.92068429237947,
      "grad_norm": 0.7108972668647766,
      "learning_rate": 0.0001,
      "loss": 1.1562,
      "ncs_loss": 0,
      "step": 27200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.951788491446344,
      "grad_norm": 0.6253125071525574,
      "learning_rate": 0.0001,
      "loss": 1.1491,
      "ncs_loss": 0,
      "step": 27250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 16.982892690513218,
      "grad_norm": 0.960365891456604,
      "learning_rate": 0.0001,
      "loss": 1.1545,
      "ncs_loss": 0,
      "step": 27300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.013996889580092,
      "grad_norm": 0.658601701259613,
      "learning_rate": 0.0001,
      "loss": 1.1273,
      "ncs_loss": 0,
      "step": 27350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.045101088646966,
      "grad_norm": 0.6315990686416626,
      "learning_rate": 0.0001,
      "loss": 1.1193,
      "ncs_loss": 0,
      "step": 27400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.07620528771384,
      "grad_norm": 0.7225651741027832,
      "learning_rate": 0.0001,
      "loss": 1.1267,
      "ncs_loss": 0,
      "step": 27450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.107309486780714,
      "grad_norm": 0.7424184083938599,
      "learning_rate": 0.0001,
      "loss": 1.1257,
      "ncs_loss": 0,
      "step": 27500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.13841368584759,
      "grad_norm": 0.6661361455917358,
      "learning_rate": 0.0001,
      "loss": 1.1402,
      "ncs_loss": 0,
      "step": 27550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.169517884914463,
      "grad_norm": 0.6937025189399719,
      "learning_rate": 0.0001,
      "loss": 1.1208,
      "ncs_loss": 0,
      "step": 27600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.200622083981337,
      "grad_norm": 0.729164719581604,
      "learning_rate": 0.0001,
      "loss": 1.1218,
      "ncs_loss": 0,
      "step": 27650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.23172628304821,
      "grad_norm": 0.690648078918457,
      "learning_rate": 0.0001,
      "loss": 1.1201,
      "ncs_loss": 0,
      "step": 27700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.262830482115085,
      "grad_norm": 0.7294055819511414,
      "learning_rate": 0.0001,
      "loss": 1.1198,
      "ncs_loss": 0,
      "step": 27750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.29393468118196,
      "grad_norm": 0.6866793036460876,
      "learning_rate": 0.0001,
      "loss": 1.1285,
      "ncs_loss": 0,
      "step": 27800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.325038880248833,
      "grad_norm": 0.6984485387802124,
      "learning_rate": 0.0001,
      "loss": 1.1318,
      "ncs_loss": 0,
      "step": 27850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.356143079315707,
      "grad_norm": 0.7029687762260437,
      "learning_rate": 0.0001,
      "loss": 1.1282,
      "ncs_loss": 0,
      "step": 27900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.38724727838258,
      "grad_norm": 0.6939306855201721,
      "learning_rate": 0.0001,
      "loss": 1.123,
      "ncs_loss": 0,
      "step": 27950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.418351477449455,
      "grad_norm": 0.6467429995536804,
      "learning_rate": 0.0001,
      "loss": 1.1209,
      "ncs_loss": 0,
      "step": 28000,
      "z_loss": 0
    },
    {
      "epoch": 17.418351477449455,
      "eval_bleu": 15.7986,
      "eval_gen_len": 24.9061,
      "eval_loss": 2.1841273307800293,
      "eval_runtime": 21.3861,
      "eval_samples_per_second": 46.806,
      "eval_steps_per_second": 1.496,
      "num_experts_activated": 0,
      "step": 28000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.44945567651633,
      "grad_norm": 0.6474437713623047,
      "learning_rate": 0.0001,
      "loss": 1.1196,
      "ncs_loss": 0,
      "step": 28050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.480559875583204,
      "grad_norm": 0.775787353515625,
      "learning_rate": 0.0001,
      "loss": 1.1386,
      "ncs_loss": 0,
      "step": 28100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.511664074650078,
      "grad_norm": 0.7145934700965881,
      "learning_rate": 0.0001,
      "loss": 1.1181,
      "ncs_loss": 0,
      "step": 28150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.542768273716952,
      "grad_norm": 0.6708141565322876,
      "learning_rate": 0.0001,
      "loss": 1.128,
      "ncs_loss": 0,
      "step": 28200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.573872472783826,
      "grad_norm": 0.7002672553062439,
      "learning_rate": 0.0001,
      "loss": 1.1271,
      "ncs_loss": 0,
      "step": 28250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.6049766718507,
      "grad_norm": 0.623688280582428,
      "learning_rate": 0.0001,
      "loss": 1.1258,
      "ncs_loss": 0,
      "step": 28300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.636080870917574,
      "grad_norm": 0.6247694492340088,
      "learning_rate": 0.0001,
      "loss": 1.1229,
      "ncs_loss": 0,
      "step": 28350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.66718506998445,
      "grad_norm": 0.6712959408760071,
      "learning_rate": 0.0001,
      "loss": 1.1169,
      "ncs_loss": 0,
      "step": 28400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.698289269051322,
      "grad_norm": 0.7211781144142151,
      "learning_rate": 0.0001,
      "loss": 1.1307,
      "ncs_loss": 0,
      "step": 28450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.729393468118197,
      "grad_norm": 0.7055362462997437,
      "learning_rate": 0.0001,
      "loss": 1.1234,
      "ncs_loss": 0,
      "step": 28500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.76049766718507,
      "grad_norm": 0.7651407122612,
      "learning_rate": 0.0001,
      "loss": 1.1254,
      "ncs_loss": 0,
      "step": 28550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.791601866251945,
      "grad_norm": 0.6222785115242004,
      "learning_rate": 0.0001,
      "loss": 1.125,
      "ncs_loss": 0,
      "step": 28600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.82270606531882,
      "grad_norm": 0.6855911612510681,
      "learning_rate": 0.0001,
      "loss": 1.1134,
      "ncs_loss": 0,
      "step": 28650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.853810264385693,
      "grad_norm": 0.7341428995132446,
      "learning_rate": 0.0001,
      "loss": 1.1309,
      "ncs_loss": 0,
      "step": 28700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.884914463452567,
      "grad_norm": 0.6369599103927612,
      "learning_rate": 0.0001,
      "loss": 1.1272,
      "ncs_loss": 0,
      "step": 28750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.91601866251944,
      "grad_norm": 0.6609213352203369,
      "learning_rate": 0.0001,
      "loss": 1.1452,
      "ncs_loss": 0,
      "step": 28800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.947122861586315,
      "grad_norm": 0.5996696352958679,
      "learning_rate": 0.0001,
      "loss": 1.1153,
      "ncs_loss": 0,
      "step": 28850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 17.97822706065319,
      "grad_norm": 0.706236720085144,
      "learning_rate": 0.0001,
      "loss": 1.1135,
      "ncs_loss": 0,
      "step": 28900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.009331259720064,
      "grad_norm": 0.6439229846000671,
      "learning_rate": 0.0001,
      "loss": 1.1107,
      "ncs_loss": 0,
      "step": 28950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.040435458786938,
      "grad_norm": 0.6264171600341797,
      "learning_rate": 0.0001,
      "loss": 1.1125,
      "ncs_loss": 0,
      "step": 29000,
      "z_loss": 0
    },
    {
      "epoch": 18.040435458786938,
      "eval_bleu": 16.3828,
      "eval_gen_len": 25.1069,
      "eval_loss": 2.1732337474823,
      "eval_runtime": 21.3562,
      "eval_samples_per_second": 46.872,
      "eval_steps_per_second": 1.498,
      "num_experts_activated": 0,
      "step": 29000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.071539657853812,
      "grad_norm": 0.7562077045440674,
      "learning_rate": 0.0001,
      "loss": 1.1059,
      "ncs_loss": 0,
      "step": 29050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.102643856920686,
      "grad_norm": 0.5968509316444397,
      "learning_rate": 0.0001,
      "loss": 1.1052,
      "ncs_loss": 0,
      "step": 29100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.133748055987557,
      "grad_norm": 0.7073222398757935,
      "learning_rate": 0.0001,
      "loss": 1.0962,
      "ncs_loss": 0,
      "step": 29150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.16485225505443,
      "grad_norm": 0.7354409694671631,
      "learning_rate": 0.0001,
      "loss": 1.0919,
      "ncs_loss": 0,
      "step": 29200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.195956454121305,
      "grad_norm": 0.7201592326164246,
      "learning_rate": 0.0001,
      "loss": 1.0916,
      "ncs_loss": 0,
      "step": 29250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.22706065318818,
      "grad_norm": 0.680404782295227,
      "learning_rate": 0.0001,
      "loss": 1.1086,
      "ncs_loss": 0,
      "step": 29300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.258164852255053,
      "grad_norm": 0.6591114401817322,
      "learning_rate": 0.0001,
      "loss": 1.097,
      "ncs_loss": 0,
      "step": 29350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.289269051321927,
      "grad_norm": 0.7227630615234375,
      "learning_rate": 0.0001,
      "loss": 1.0865,
      "ncs_loss": 0,
      "step": 29400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.3203732503888,
      "grad_norm": 0.7693532705307007,
      "learning_rate": 0.0001,
      "loss": 1.1125,
      "ncs_loss": 0,
      "step": 29450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.351477449455675,
      "grad_norm": 0.7398695349693298,
      "learning_rate": 0.0001,
      "loss": 1.1018,
      "ncs_loss": 0,
      "step": 29500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.38258164852255,
      "grad_norm": 0.672837495803833,
      "learning_rate": 0.0001,
      "loss": 1.1007,
      "ncs_loss": 0,
      "step": 29550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.413685847589424,
      "grad_norm": 0.6977723240852356,
      "learning_rate": 0.0001,
      "loss": 1.1085,
      "ncs_loss": 0,
      "step": 29600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.444790046656298,
      "grad_norm": 0.6259617805480957,
      "learning_rate": 0.0001,
      "loss": 1.1212,
      "ncs_loss": 0,
      "step": 29650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.475894245723172,
      "grad_norm": 0.7668769359588623,
      "learning_rate": 0.0001,
      "loss": 1.1033,
      "ncs_loss": 0,
      "step": 29700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.506998444790046,
      "grad_norm": 0.6800207495689392,
      "learning_rate": 0.0001,
      "loss": 1.0915,
      "ncs_loss": 0,
      "step": 29750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.53810264385692,
      "grad_norm": 0.6506568789482117,
      "learning_rate": 0.0001,
      "loss": 1.1053,
      "ncs_loss": 0,
      "step": 29800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.569206842923794,
      "grad_norm": 0.6693591475486755,
      "learning_rate": 0.0001,
      "loss": 1.1059,
      "ncs_loss": 0,
      "step": 29850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.60031104199067,
      "grad_norm": 0.6903501749038696,
      "learning_rate": 0.0001,
      "loss": 1.1087,
      "ncs_loss": 0,
      "step": 29900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.631415241057542,
      "grad_norm": 0.6623045802116394,
      "learning_rate": 0.0001,
      "loss": 1.1087,
      "ncs_loss": 0,
      "step": 29950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.662519440124417,
      "grad_norm": 0.7042186856269836,
      "learning_rate": 0.0001,
      "loss": 1.1055,
      "ncs_loss": 0,
      "step": 30000,
      "z_loss": 0
    },
    {
      "epoch": 18.662519440124417,
      "eval_bleu": 16.0596,
      "eval_gen_len": 25.012,
      "eval_loss": 2.16983699798584,
      "eval_runtime": 21.4513,
      "eval_samples_per_second": 46.664,
      "eval_steps_per_second": 1.492,
      "num_experts_activated": 0,
      "step": 30000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.69362363919129,
      "grad_norm": 0.7054575085639954,
      "learning_rate": 0.0001,
      "loss": 1.1097,
      "ncs_loss": 0,
      "step": 30050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.724727838258165,
      "grad_norm": 0.7433599829673767,
      "learning_rate": 0.0001,
      "loss": 1.1005,
      "ncs_loss": 0,
      "step": 30100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.75583203732504,
      "grad_norm": 0.6822683215141296,
      "learning_rate": 0.0001,
      "loss": 1.1105,
      "ncs_loss": 0,
      "step": 30150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.786936236391913,
      "grad_norm": 0.726535975933075,
      "learning_rate": 0.0001,
      "loss": 1.098,
      "ncs_loss": 0,
      "step": 30200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.818040435458787,
      "grad_norm": 0.6309256553649902,
      "learning_rate": 0.0001,
      "loss": 1.108,
      "ncs_loss": 0,
      "step": 30250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.84914463452566,
      "grad_norm": 0.6718459129333496,
      "learning_rate": 0.0001,
      "loss": 1.1023,
      "ncs_loss": 0,
      "step": 30300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.880248833592535,
      "grad_norm": 0.7223742604255676,
      "learning_rate": 0.0001,
      "loss": 1.1075,
      "ncs_loss": 0,
      "step": 30350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.91135303265941,
      "grad_norm": 0.7822604179382324,
      "learning_rate": 0.0001,
      "loss": 1.102,
      "ncs_loss": 0,
      "step": 30400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.942457231726284,
      "grad_norm": 0.7115124464035034,
      "learning_rate": 0.0001,
      "loss": 1.1011,
      "ncs_loss": 0,
      "step": 30450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 18.973561430793158,
      "grad_norm": 0.7162455916404724,
      "learning_rate": 0.0001,
      "loss": 1.1089,
      "ncs_loss": 0,
      "step": 30500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.004665629860032,
      "grad_norm": 0.633273184299469,
      "learning_rate": 0.0001,
      "loss": 1.0982,
      "ncs_loss": 0,
      "step": 30550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.035769828926906,
      "grad_norm": 0.6525532007217407,
      "learning_rate": 0.0001,
      "loss": 1.0818,
      "ncs_loss": 0,
      "step": 30600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.06687402799378,
      "grad_norm": 0.7341654896736145,
      "learning_rate": 0.0001,
      "loss": 1.0733,
      "ncs_loss": 0,
      "step": 30650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.097978227060654,
      "grad_norm": 0.77479487657547,
      "learning_rate": 0.0001,
      "loss": 1.0832,
      "ncs_loss": 0,
      "step": 30700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.12908242612753,
      "grad_norm": 0.6395514011383057,
      "learning_rate": 0.0001,
      "loss": 1.0756,
      "ncs_loss": 0,
      "step": 30750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.160186625194402,
      "grad_norm": 0.6469193696975708,
      "learning_rate": 0.0001,
      "loss": 1.0715,
      "ncs_loss": 0,
      "step": 30800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.191290824261277,
      "grad_norm": 0.6719505786895752,
      "learning_rate": 0.0001,
      "loss": 1.0853,
      "ncs_loss": 0,
      "step": 30850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.22239502332815,
      "grad_norm": 0.6814892292022705,
      "learning_rate": 0.0001,
      "loss": 1.0857,
      "ncs_loss": 0,
      "step": 30900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.253499222395025,
      "grad_norm": 0.6387562155723572,
      "learning_rate": 0.0001,
      "loss": 1.0709,
      "ncs_loss": 0,
      "step": 30950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.2846034214619,
      "grad_norm": 0.7374744415283203,
      "learning_rate": 0.0001,
      "loss": 1.0732,
      "ncs_loss": 0,
      "step": 31000,
      "z_loss": 0
    },
    {
      "epoch": 19.2846034214619,
      "eval_bleu": 16.3497,
      "eval_gen_len": 24.7393,
      "eval_loss": 2.163278341293335,
      "eval_runtime": 21.3426,
      "eval_samples_per_second": 46.902,
      "eval_steps_per_second": 1.499,
      "num_experts_activated": 0,
      "step": 31000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.315707620528773,
      "grad_norm": 0.6737692356109619,
      "learning_rate": 0.0001,
      "loss": 1.094,
      "ncs_loss": 0,
      "step": 31050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.346811819595647,
      "grad_norm": 0.6581270694732666,
      "learning_rate": 0.0001,
      "loss": 1.0925,
      "ncs_loss": 0,
      "step": 31100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.377916018662518,
      "grad_norm": 0.741286039352417,
      "learning_rate": 0.0001,
      "loss": 1.0938,
      "ncs_loss": 0,
      "step": 31150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.409020217729392,
      "grad_norm": 0.7565013766288757,
      "learning_rate": 0.0001,
      "loss": 1.0788,
      "ncs_loss": 0,
      "step": 31200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.440124416796266,
      "grad_norm": 0.6517223715782166,
      "learning_rate": 0.0001,
      "loss": 1.076,
      "ncs_loss": 0,
      "step": 31250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.47122861586314,
      "grad_norm": 0.6269624829292297,
      "learning_rate": 0.0001,
      "loss": 1.0782,
      "ncs_loss": 0,
      "step": 31300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.502332814930014,
      "grad_norm": 0.6945505738258362,
      "learning_rate": 0.0001,
      "loss": 1.0888,
      "ncs_loss": 0,
      "step": 31350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.53343701399689,
      "grad_norm": 0.6459898948669434,
      "learning_rate": 0.0001,
      "loss": 1.0749,
      "ncs_loss": 0,
      "step": 31400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.564541213063762,
      "grad_norm": 0.6750279068946838,
      "learning_rate": 0.0001,
      "loss": 1.0837,
      "ncs_loss": 0,
      "step": 31450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.595645412130636,
      "grad_norm": 0.6744219064712524,
      "learning_rate": 0.0001,
      "loss": 1.092,
      "ncs_loss": 0,
      "step": 31500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.62674961119751,
      "grad_norm": 0.7782357335090637,
      "learning_rate": 0.0001,
      "loss": 1.0838,
      "ncs_loss": 0,
      "step": 31550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.657853810264385,
      "grad_norm": 0.7209439873695374,
      "learning_rate": 0.0001,
      "loss": 1.0839,
      "ncs_loss": 0,
      "step": 31600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.68895800933126,
      "grad_norm": 0.756848156452179,
      "learning_rate": 0.0001,
      "loss": 1.0769,
      "ncs_loss": 0,
      "step": 31650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.720062208398133,
      "grad_norm": 0.6560418009757996,
      "learning_rate": 0.0001,
      "loss": 1.0819,
      "ncs_loss": 0,
      "step": 31700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.751166407465007,
      "grad_norm": 0.8074057698249817,
      "learning_rate": 0.0001,
      "loss": 1.0918,
      "ncs_loss": 0,
      "step": 31750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.78227060653188,
      "grad_norm": 0.7094277143478394,
      "learning_rate": 0.0001,
      "loss": 1.0902,
      "ncs_loss": 0,
      "step": 31800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.813374805598755,
      "grad_norm": 0.6264659762382507,
      "learning_rate": 0.0001,
      "loss": 1.0896,
      "ncs_loss": 0,
      "step": 31850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.84447900466563,
      "grad_norm": 0.7534782886505127,
      "learning_rate": 0.0001,
      "loss": 1.0971,
      "ncs_loss": 0,
      "step": 31900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.875583203732504,
      "grad_norm": 0.7166377902030945,
      "learning_rate": 0.0001,
      "loss": 1.0883,
      "ncs_loss": 0,
      "step": 31950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.906687402799378,
      "grad_norm": 0.6444016098976135,
      "learning_rate": 0.0001,
      "loss": 1.0726,
      "ncs_loss": 0,
      "step": 32000,
      "z_loss": 0
    },
    {
      "epoch": 19.906687402799378,
      "eval_bleu": 16.5415,
      "eval_gen_len": 24.8891,
      "eval_loss": 2.1605401039123535,
      "eval_runtime": 21.4077,
      "eval_samples_per_second": 46.759,
      "eval_steps_per_second": 1.495,
      "num_experts_activated": 0,
      "step": 32000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.93779160186625,
      "grad_norm": 0.6913011074066162,
      "learning_rate": 0.0001,
      "loss": 1.0928,
      "ncs_loss": 0,
      "step": 32050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 19.968895800933126,
      "grad_norm": 0.6858421564102173,
      "learning_rate": 0.0001,
      "loss": 1.0769,
      "ncs_loss": 0,
      "step": 32100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.0,
      "grad_norm": 0.8037184476852417,
      "learning_rate": 0.0001,
      "loss": 1.0877,
      "ncs_loss": 0,
      "step": 32150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.031104199066874,
      "grad_norm": 0.6371440887451172,
      "learning_rate": 0.0001,
      "loss": 1.0614,
      "ncs_loss": 0,
      "step": 32200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.06220839813375,
      "grad_norm": 0.7520125508308411,
      "learning_rate": 0.0001,
      "loss": 1.0542,
      "ncs_loss": 0,
      "step": 32250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.093312597200622,
      "grad_norm": 0.7749431729316711,
      "learning_rate": 0.0001,
      "loss": 1.0434,
      "ncs_loss": 0,
      "step": 32300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.124416796267496,
      "grad_norm": 0.6564956307411194,
      "learning_rate": 0.0001,
      "loss": 1.0617,
      "ncs_loss": 0,
      "step": 32350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.15552099533437,
      "grad_norm": 0.6696126461029053,
      "learning_rate": 0.0001,
      "loss": 1.0804,
      "ncs_loss": 0,
      "step": 32400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.186625194401245,
      "grad_norm": 0.7127752900123596,
      "learning_rate": 0.0001,
      "loss": 1.0688,
      "ncs_loss": 0,
      "step": 32450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.21772939346812,
      "grad_norm": 0.6324957609176636,
      "learning_rate": 0.0001,
      "loss": 1.057,
      "ncs_loss": 0,
      "step": 32500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.248833592534993,
      "grad_norm": 0.695216715335846,
      "learning_rate": 0.0001,
      "loss": 1.0618,
      "ncs_loss": 0,
      "step": 32550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.279937791601867,
      "grad_norm": 0.7384348511695862,
      "learning_rate": 0.0001,
      "loss": 1.064,
      "ncs_loss": 0,
      "step": 32600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.31104199066874,
      "grad_norm": 0.731948971748352,
      "learning_rate": 0.0001,
      "loss": 1.0728,
      "ncs_loss": 0,
      "step": 32650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.342146189735615,
      "grad_norm": 0.6412485241889954,
      "learning_rate": 0.0001,
      "loss": 1.0585,
      "ncs_loss": 0,
      "step": 32700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.37325038880249,
      "grad_norm": 0.7446793913841248,
      "learning_rate": 0.0001,
      "loss": 1.0566,
      "ncs_loss": 0,
      "step": 32750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.404354587869364,
      "grad_norm": 0.6658193469047546,
      "learning_rate": 0.0001,
      "loss": 1.0542,
      "ncs_loss": 0,
      "step": 32800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.435458786936238,
      "grad_norm": 0.6564841270446777,
      "learning_rate": 0.0001,
      "loss": 1.0646,
      "ncs_loss": 0,
      "step": 32850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.46656298600311,
      "grad_norm": 0.7156980633735657,
      "learning_rate": 0.0001,
      "loss": 1.0623,
      "ncs_loss": 0,
      "step": 32900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.497667185069986,
      "grad_norm": 0.7427722215652466,
      "learning_rate": 0.0001,
      "loss": 1.0749,
      "ncs_loss": 0,
      "step": 32950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.52877138413686,
      "grad_norm": 0.7376824617385864,
      "learning_rate": 0.0001,
      "loss": 1.0663,
      "ncs_loss": 0,
      "step": 33000,
      "z_loss": 0
    },
    {
      "epoch": 20.52877138413686,
      "eval_bleu": 16.5621,
      "eval_gen_len": 25.2887,
      "eval_loss": 2.1503052711486816,
      "eval_runtime": 22.0575,
      "eval_samples_per_second": 45.381,
      "eval_steps_per_second": 1.451,
      "num_experts_activated": 0,
      "step": 33000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.559875583203734,
      "grad_norm": 0.7488458156585693,
      "learning_rate": 0.0001,
      "loss": 1.0753,
      "ncs_loss": 0,
      "step": 33050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.590979782270608,
      "grad_norm": 0.686130702495575,
      "learning_rate": 0.0001,
      "loss": 1.0605,
      "ncs_loss": 0,
      "step": 33100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.622083981337482,
      "grad_norm": 0.6564477682113647,
      "learning_rate": 0.0001,
      "loss": 1.072,
      "ncs_loss": 0,
      "step": 33150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.653188180404353,
      "grad_norm": 0.6482489705085754,
      "learning_rate": 0.0001,
      "loss": 1.0674,
      "ncs_loss": 0,
      "step": 33200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.684292379471227,
      "grad_norm": 0.7081703543663025,
      "learning_rate": 0.0001,
      "loss": 1.0618,
      "ncs_loss": 0,
      "step": 33250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.7153965785381,
      "grad_norm": 0.7415044903755188,
      "learning_rate": 0.0001,
      "loss": 1.0659,
      "ncs_loss": 0,
      "step": 33300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.746500777604975,
      "grad_norm": 0.7938787341117859,
      "learning_rate": 0.0001,
      "loss": 1.0686,
      "ncs_loss": 0,
      "step": 33350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.77760497667185,
      "grad_norm": 0.7071825861930847,
      "learning_rate": 0.0001,
      "loss": 1.0601,
      "ncs_loss": 0,
      "step": 33400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.808709175738723,
      "grad_norm": 0.5874091386795044,
      "learning_rate": 0.0001,
      "loss": 1.059,
      "ncs_loss": 0,
      "step": 33450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.839813374805598,
      "grad_norm": 0.6847677230834961,
      "learning_rate": 0.0001,
      "loss": 1.0794,
      "ncs_loss": 0,
      "step": 33500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.87091757387247,
      "grad_norm": 0.6686419248580933,
      "learning_rate": 0.0001,
      "loss": 1.0704,
      "ncs_loss": 0,
      "step": 33550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.902021772939346,
      "grad_norm": 0.7110094428062439,
      "learning_rate": 0.0001,
      "loss": 1.0567,
      "ncs_loss": 0,
      "step": 33600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.93312597200622,
      "grad_norm": 0.674185574054718,
      "learning_rate": 0.0001,
      "loss": 1.0877,
      "ncs_loss": 0,
      "step": 33650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.964230171073094,
      "grad_norm": 0.6702365279197693,
      "learning_rate": 0.0001,
      "loss": 1.063,
      "ncs_loss": 0,
      "step": 33700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 20.995334370139968,
      "grad_norm": 0.5991795063018799,
      "learning_rate": 0.0001,
      "loss": 1.0803,
      "ncs_loss": 0,
      "step": 33750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.026438569206842,
      "grad_norm": 0.812593936920166,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "ncs_loss": 0,
      "step": 33800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.057542768273716,
      "grad_norm": 0.6655361652374268,
      "learning_rate": 0.0001,
      "loss": 1.0364,
      "ncs_loss": 0,
      "step": 33850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.08864696734059,
      "grad_norm": 0.660645067691803,
      "learning_rate": 0.0001,
      "loss": 1.0531,
      "ncs_loss": 0,
      "step": 33900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.119751166407465,
      "grad_norm": 0.6590822339057922,
      "learning_rate": 0.0001,
      "loss": 1.0439,
      "ncs_loss": 0,
      "step": 33950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.15085536547434,
      "grad_norm": 0.6837581992149353,
      "learning_rate": 0.0001,
      "loss": 1.0536,
      "ncs_loss": 0,
      "step": 34000,
      "z_loss": 0
    },
    {
      "epoch": 21.15085536547434,
      "eval_bleu": 16.9547,
      "eval_gen_len": 25.0929,
      "eval_loss": 2.1524498462677,
      "eval_runtime": 21.4994,
      "eval_samples_per_second": 46.559,
      "eval_steps_per_second": 1.488,
      "num_experts_activated": 0,
      "step": 34000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.181959564541213,
      "grad_norm": 0.7169365286827087,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "ncs_loss": 0,
      "step": 34050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.213063763608087,
      "grad_norm": 0.6746829152107239,
      "learning_rate": 0.0001,
      "loss": 1.0475,
      "ncs_loss": 0,
      "step": 34100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.24416796267496,
      "grad_norm": 0.6827090382575989,
      "learning_rate": 0.0001,
      "loss": 1.0556,
      "ncs_loss": 0,
      "step": 34150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.275272161741835,
      "grad_norm": 0.7344971299171448,
      "learning_rate": 0.0001,
      "loss": 1.0398,
      "ncs_loss": 0,
      "step": 34200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.30637636080871,
      "grad_norm": 0.6602841019630432,
      "learning_rate": 0.0001,
      "loss": 1.0519,
      "ncs_loss": 0,
      "step": 34250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.337480559875583,
      "grad_norm": 0.7154935598373413,
      "learning_rate": 0.0001,
      "loss": 1.0408,
      "ncs_loss": 0,
      "step": 34300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.368584758942458,
      "grad_norm": 0.7298522591590881,
      "learning_rate": 0.0001,
      "loss": 1.0446,
      "ncs_loss": 0,
      "step": 34350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.39968895800933,
      "grad_norm": 0.7010088562965393,
      "learning_rate": 0.0001,
      "loss": 1.0474,
      "ncs_loss": 0,
      "step": 34400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.430793157076206,
      "grad_norm": 0.6450037956237793,
      "learning_rate": 0.0001,
      "loss": 1.0371,
      "ncs_loss": 0,
      "step": 34450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.46189735614308,
      "grad_norm": 0.6860730051994324,
      "learning_rate": 0.0001,
      "loss": 1.0424,
      "ncs_loss": 0,
      "step": 34500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.493001555209954,
      "grad_norm": 0.6477199792861938,
      "learning_rate": 0.0001,
      "loss": 1.0475,
      "ncs_loss": 0,
      "step": 34550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.524105754276828,
      "grad_norm": 0.7882235050201416,
      "learning_rate": 0.0001,
      "loss": 1.0474,
      "ncs_loss": 0,
      "step": 34600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.555209953343702,
      "grad_norm": 0.7107287645339966,
      "learning_rate": 0.0001,
      "loss": 1.0453,
      "ncs_loss": 0,
      "step": 34650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.586314152410576,
      "grad_norm": 0.6792505383491516,
      "learning_rate": 0.0001,
      "loss": 1.0593,
      "ncs_loss": 0,
      "step": 34700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.61741835147745,
      "grad_norm": 0.7617983222007751,
      "learning_rate": 0.0001,
      "loss": 1.0506,
      "ncs_loss": 0,
      "step": 34750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.648522550544325,
      "grad_norm": 0.6922664642333984,
      "learning_rate": 0.0001,
      "loss": 1.0457,
      "ncs_loss": 0,
      "step": 34800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.6796267496112,
      "grad_norm": 0.7089241147041321,
      "learning_rate": 0.0001,
      "loss": 1.0351,
      "ncs_loss": 0,
      "step": 34850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.710730948678073,
      "grad_norm": 0.675835907459259,
      "learning_rate": 0.0001,
      "loss": 1.0451,
      "ncs_loss": 0,
      "step": 34900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.741835147744947,
      "grad_norm": 0.6964439153671265,
      "learning_rate": 0.0001,
      "loss": 1.0429,
      "ncs_loss": 0,
      "step": 34950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.77293934681182,
      "grad_norm": 0.7180665731430054,
      "learning_rate": 0.0001,
      "loss": 1.0451,
      "ncs_loss": 0,
      "step": 35000,
      "z_loss": 0
    },
    {
      "epoch": 21.77293934681182,
      "eval_bleu": 16.7843,
      "eval_gen_len": 25.0989,
      "eval_loss": 2.1441762447357178,
      "eval_runtime": 21.4367,
      "eval_samples_per_second": 46.696,
      "eval_steps_per_second": 1.493,
      "num_experts_activated": 0,
      "step": 35000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.804043545878695,
      "grad_norm": 0.7365728616714478,
      "learning_rate": 0.0001,
      "loss": 1.0444,
      "ncs_loss": 0,
      "step": 35050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.83514774494557,
      "grad_norm": 0.6709327101707458,
      "learning_rate": 0.0001,
      "loss": 1.0618,
      "ncs_loss": 0,
      "step": 35100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.86625194401244,
      "grad_norm": 0.6527857184410095,
      "learning_rate": 0.0001,
      "loss": 1.052,
      "ncs_loss": 0,
      "step": 35150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.897356143079314,
      "grad_norm": 0.6728560924530029,
      "learning_rate": 0.0001,
      "loss": 1.0611,
      "ncs_loss": 0,
      "step": 35200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.928460342146188,
      "grad_norm": 0.6377875804901123,
      "learning_rate": 0.0001,
      "loss": 1.0292,
      "ncs_loss": 0,
      "step": 35250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.959564541213062,
      "grad_norm": 0.6195963025093079,
      "learning_rate": 0.0001,
      "loss": 1.055,
      "ncs_loss": 0,
      "step": 35300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 21.990668740279936,
      "grad_norm": 0.8111387491226196,
      "learning_rate": 0.0001,
      "loss": 1.0553,
      "ncs_loss": 0,
      "step": 35350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.02177293934681,
      "grad_norm": 0.6518674492835999,
      "learning_rate": 0.0001,
      "loss": 1.0389,
      "ncs_loss": 0,
      "step": 35400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.052877138413685,
      "grad_norm": 0.6471618413925171,
      "learning_rate": 0.0001,
      "loss": 1.0223,
      "ncs_loss": 0,
      "step": 35450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.08398133748056,
      "grad_norm": 0.6845056414604187,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "ncs_loss": 0,
      "step": 35500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.115085536547433,
      "grad_norm": 0.8212459683418274,
      "learning_rate": 0.0001,
      "loss": 1.0214,
      "ncs_loss": 0,
      "step": 35550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.146189735614307,
      "grad_norm": 0.7452654838562012,
      "learning_rate": 0.0001,
      "loss": 1.0245,
      "ncs_loss": 0,
      "step": 35600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.17729393468118,
      "grad_norm": 0.7303783893585205,
      "learning_rate": 0.0001,
      "loss": 1.0266,
      "ncs_loss": 0,
      "step": 35650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.208398133748055,
      "grad_norm": 0.6723756194114685,
      "learning_rate": 0.0001,
      "loss": 1.0269,
      "ncs_loss": 0,
      "step": 35700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.23950233281493,
      "grad_norm": 0.6747432351112366,
      "learning_rate": 0.0001,
      "loss": 1.0163,
      "ncs_loss": 0,
      "step": 35750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.270606531881803,
      "grad_norm": 0.7271702885627747,
      "learning_rate": 0.0001,
      "loss": 1.031,
      "ncs_loss": 0,
      "step": 35800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.301710730948678,
      "grad_norm": 0.6723275780677795,
      "learning_rate": 0.0001,
      "loss": 1.0236,
      "ncs_loss": 0,
      "step": 35850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.33281493001555,
      "grad_norm": 0.7907888889312744,
      "learning_rate": 0.0001,
      "loss": 1.0343,
      "ncs_loss": 0,
      "step": 35900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.363919129082426,
      "grad_norm": 0.6427628993988037,
      "learning_rate": 0.0001,
      "loss": 1.038,
      "ncs_loss": 0,
      "step": 35950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.3950233281493,
      "grad_norm": 0.666852593421936,
      "learning_rate": 0.0001,
      "loss": 1.0336,
      "ncs_loss": 0,
      "step": 36000,
      "z_loss": 0
    },
    {
      "epoch": 22.3950233281493,
      "eval_bleu": 16.8701,
      "eval_gen_len": 25.1309,
      "eval_loss": 2.150556802749634,
      "eval_runtime": 21.592,
      "eval_samples_per_second": 46.36,
      "eval_steps_per_second": 1.482,
      "num_experts_activated": 0,
      "step": 36000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.426127527216174,
      "grad_norm": 0.7442646622657776,
      "learning_rate": 0.0001,
      "loss": 1.0404,
      "ncs_loss": 0,
      "step": 36050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.457231726283048,
      "grad_norm": 0.7267166972160339,
      "learning_rate": 0.0001,
      "loss": 1.0238,
      "ncs_loss": 0,
      "step": 36100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.488335925349922,
      "grad_norm": 0.7069442868232727,
      "learning_rate": 0.0001,
      "loss": 1.0344,
      "ncs_loss": 0,
      "step": 36150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.519440124416796,
      "grad_norm": 0.6375539302825928,
      "learning_rate": 0.0001,
      "loss": 1.028,
      "ncs_loss": 0,
      "step": 36200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.55054432348367,
      "grad_norm": 0.670138955116272,
      "learning_rate": 0.0001,
      "loss": 1.0502,
      "ncs_loss": 0,
      "step": 36250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.581648522550545,
      "grad_norm": 0.620807409286499,
      "learning_rate": 0.0001,
      "loss": 1.0281,
      "ncs_loss": 0,
      "step": 36300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.61275272161742,
      "grad_norm": 0.7274342179298401,
      "learning_rate": 0.0001,
      "loss": 1.0328,
      "ncs_loss": 0,
      "step": 36350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.643856920684293,
      "grad_norm": 0.789560079574585,
      "learning_rate": 0.0001,
      "loss": 1.0378,
      "ncs_loss": 0,
      "step": 36400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.674961119751167,
      "grad_norm": 0.7823098301887512,
      "learning_rate": 0.0001,
      "loss": 1.0323,
      "ncs_loss": 0,
      "step": 36450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.70606531881804,
      "grad_norm": 0.6957845091819763,
      "learning_rate": 0.0001,
      "loss": 1.0407,
      "ncs_loss": 0,
      "step": 36500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.737169517884915,
      "grad_norm": 0.7083472609519958,
      "learning_rate": 0.0001,
      "loss": 1.0337,
      "ncs_loss": 0,
      "step": 36550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.76827371695179,
      "grad_norm": 0.6883548498153687,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "ncs_loss": 0,
      "step": 36600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.799377916018663,
      "grad_norm": 0.6985350251197815,
      "learning_rate": 0.0001,
      "loss": 1.021,
      "ncs_loss": 0,
      "step": 36650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.830482115085537,
      "grad_norm": 0.6318195462226868,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "ncs_loss": 0,
      "step": 36700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.86158631415241,
      "grad_norm": 0.6661468148231506,
      "learning_rate": 0.0001,
      "loss": 1.0357,
      "ncs_loss": 0,
      "step": 36750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.892690513219286,
      "grad_norm": 0.6141208410263062,
      "learning_rate": 0.0001,
      "loss": 1.0385,
      "ncs_loss": 0,
      "step": 36800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.92379471228616,
      "grad_norm": 0.6612035036087036,
      "learning_rate": 0.0001,
      "loss": 1.0341,
      "ncs_loss": 0,
      "step": 36850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.954898911353034,
      "grad_norm": 0.650425910949707,
      "learning_rate": 0.0001,
      "loss": 1.0402,
      "ncs_loss": 0,
      "step": 36900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 22.986003110419908,
      "grad_norm": 0.6324652433395386,
      "learning_rate": 0.0001,
      "loss": 1.0369,
      "ncs_loss": 0,
      "step": 36950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.017107309486782,
      "grad_norm": 0.6786949634552002,
      "learning_rate": 0.0001,
      "loss": 1.02,
      "ncs_loss": 0,
      "step": 37000,
      "z_loss": 0
    },
    {
      "epoch": 23.017107309486782,
      "eval_bleu": 16.7293,
      "eval_gen_len": 24.7363,
      "eval_loss": 2.1592650413513184,
      "eval_runtime": 21.1191,
      "eval_samples_per_second": 47.398,
      "eval_steps_per_second": 1.515,
      "num_experts_activated": 0,
      "step": 37000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.048211508553656,
      "grad_norm": 0.7819061279296875,
      "learning_rate": 0.0001,
      "loss": 1.0113,
      "ncs_loss": 0,
      "step": 37050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.07931570762053,
      "grad_norm": 0.6164745688438416,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "ncs_loss": 0,
      "step": 37100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.110419906687405,
      "grad_norm": 0.7800363898277283,
      "learning_rate": 0.0001,
      "loss": 1.0212,
      "ncs_loss": 0,
      "step": 37150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.141524105754275,
      "grad_norm": 0.6805567145347595,
      "learning_rate": 0.0001,
      "loss": 1.0108,
      "ncs_loss": 0,
      "step": 37200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.17262830482115,
      "grad_norm": 0.6586945056915283,
      "learning_rate": 0.0001,
      "loss": 1.0048,
      "ncs_loss": 0,
      "step": 37250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.203732503888023,
      "grad_norm": 0.7163926959037781,
      "learning_rate": 0.0001,
      "loss": 1.0148,
      "ncs_loss": 0,
      "step": 37300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.234836702954897,
      "grad_norm": 0.608739972114563,
      "learning_rate": 0.0001,
      "loss": 1.0151,
      "ncs_loss": 0,
      "step": 37350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.26594090202177,
      "grad_norm": 0.7124651074409485,
      "learning_rate": 0.0001,
      "loss": 1.006,
      "ncs_loss": 0,
      "step": 37400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.297045101088646,
      "grad_norm": 0.6895217299461365,
      "learning_rate": 0.0001,
      "loss": 1.0204,
      "ncs_loss": 0,
      "step": 37450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.32814930015552,
      "grad_norm": 0.708882749080658,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "ncs_loss": 0,
      "step": 37500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.359253499222394,
      "grad_norm": 0.7060310244560242,
      "learning_rate": 0.0001,
      "loss": 1.0143,
      "ncs_loss": 0,
      "step": 37550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.390357698289268,
      "grad_norm": 0.722227156162262,
      "learning_rate": 0.0001,
      "loss": 1.0207,
      "ncs_loss": 0,
      "step": 37600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.421461897356142,
      "grad_norm": 0.6514502167701721,
      "learning_rate": 0.0001,
      "loss": 1.0164,
      "ncs_loss": 0,
      "step": 37650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.452566096423016,
      "grad_norm": 0.6541581153869629,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "ncs_loss": 0,
      "step": 37700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.48367029548989,
      "grad_norm": 0.6474090218544006,
      "learning_rate": 0.0001,
      "loss": 1.0186,
      "ncs_loss": 0,
      "step": 37750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.514774494556764,
      "grad_norm": 0.6679978966712952,
      "learning_rate": 0.0001,
      "loss": 1.0073,
      "ncs_loss": 0,
      "step": 37800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.54587869362364,
      "grad_norm": 0.7514024972915649,
      "learning_rate": 0.0001,
      "loss": 1.0178,
      "ncs_loss": 0,
      "step": 37850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.576982892690513,
      "grad_norm": 0.776688277721405,
      "learning_rate": 0.0001,
      "loss": 1.0211,
      "ncs_loss": 0,
      "step": 37900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.608087091757387,
      "grad_norm": 0.664221465587616,
      "learning_rate": 0.0001,
      "loss": 1.0069,
      "ncs_loss": 0,
      "step": 37950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.63919129082426,
      "grad_norm": 0.7891964316368103,
      "learning_rate": 0.0001,
      "loss": 1.0134,
      "ncs_loss": 0,
      "step": 38000,
      "z_loss": 0
    },
    {
      "epoch": 23.63919129082426,
      "eval_bleu": 17.0919,
      "eval_gen_len": 24.9271,
      "eval_loss": 2.1494171619415283,
      "eval_runtime": 21.4411,
      "eval_samples_per_second": 46.686,
      "eval_steps_per_second": 1.492,
      "num_experts_activated": 0,
      "step": 38000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.670295489891135,
      "grad_norm": 0.7236904501914978,
      "learning_rate": 0.0001,
      "loss": 1.0197,
      "ncs_loss": 0,
      "step": 38050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.70139968895801,
      "grad_norm": 0.6729004979133606,
      "learning_rate": 0.0001,
      "loss": 1.0257,
      "ncs_loss": 0,
      "step": 38100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.732503888024883,
      "grad_norm": 0.6678385734558105,
      "learning_rate": 0.0001,
      "loss": 1.0316,
      "ncs_loss": 0,
      "step": 38150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.763608087091757,
      "grad_norm": 0.7250542640686035,
      "learning_rate": 0.0001,
      "loss": 1.0126,
      "ncs_loss": 0,
      "step": 38200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.79471228615863,
      "grad_norm": 0.6627369523048401,
      "learning_rate": 0.0001,
      "loss": 1.0263,
      "ncs_loss": 0,
      "step": 38250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.825816485225506,
      "grad_norm": 0.6302469968795776,
      "learning_rate": 0.0001,
      "loss": 1.0075,
      "ncs_loss": 0,
      "step": 38300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.85692068429238,
      "grad_norm": 0.6447296142578125,
      "learning_rate": 0.0001,
      "loss": 1.0248,
      "ncs_loss": 0,
      "step": 38350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.888024883359254,
      "grad_norm": 0.675075888633728,
      "learning_rate": 0.0001,
      "loss": 1.0158,
      "ncs_loss": 0,
      "step": 38400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.919129082426128,
      "grad_norm": 0.6992291808128357,
      "learning_rate": 0.0001,
      "loss": 1.0283,
      "ncs_loss": 0,
      "step": 38450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.950233281493002,
      "grad_norm": 0.6521545648574829,
      "learning_rate": 0.0001,
      "loss": 1.0142,
      "ncs_loss": 0,
      "step": 38500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 23.981337480559876,
      "grad_norm": 0.7034193277359009,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "ncs_loss": 0,
      "step": 38550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.01244167962675,
      "grad_norm": 0.6613658666610718,
      "learning_rate": 0.0001,
      "loss": 1.0032,
      "ncs_loss": 0,
      "step": 38600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.043545878693624,
      "grad_norm": 0.7173092365264893,
      "learning_rate": 0.0001,
      "loss": 1.0031,
      "ncs_loss": 0,
      "step": 38650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.0746500777605,
      "grad_norm": 0.624565601348877,
      "learning_rate": 0.0001,
      "loss": 0.9977,
      "ncs_loss": 0,
      "step": 38700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.105754276827373,
      "grad_norm": 0.7188115119934082,
      "learning_rate": 0.0001,
      "loss": 1.0094,
      "ncs_loss": 0,
      "step": 38750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.136858475894247,
      "grad_norm": 0.6501762270927429,
      "learning_rate": 0.0001,
      "loss": 0.9902,
      "ncs_loss": 0,
      "step": 38800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.16796267496112,
      "grad_norm": 0.7299917340278625,
      "learning_rate": 0.0001,
      "loss": 0.9978,
      "ncs_loss": 0,
      "step": 38850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.199066874027995,
      "grad_norm": 0.6813400983810425,
      "learning_rate": 0.0001,
      "loss": 0.9989,
      "ncs_loss": 0,
      "step": 38900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.23017107309487,
      "grad_norm": 0.805098831653595,
      "learning_rate": 0.0001,
      "loss": 0.9967,
      "ncs_loss": 0,
      "step": 38950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.261275272161743,
      "grad_norm": 0.7094159722328186,
      "learning_rate": 0.0001,
      "loss": 0.9921,
      "ncs_loss": 0,
      "step": 39000,
      "z_loss": 0
    },
    {
      "epoch": 24.261275272161743,
      "eval_bleu": 17.0088,
      "eval_gen_len": 24.9081,
      "eval_loss": 2.151628255844116,
      "eval_runtime": 21.7526,
      "eval_samples_per_second": 46.017,
      "eval_steps_per_second": 1.471,
      "num_experts_activated": 0,
      "step": 39000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.292379471228617,
      "grad_norm": 0.6382947564125061,
      "learning_rate": 0.0001,
      "loss": 0.9884,
      "ncs_loss": 0,
      "step": 39050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.32348367029549,
      "grad_norm": 0.6784757375717163,
      "learning_rate": 0.0001,
      "loss": 0.9971,
      "ncs_loss": 0,
      "step": 39100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.354587869362366,
      "grad_norm": 0.6660186648368835,
      "learning_rate": 0.0001,
      "loss": 0.9954,
      "ncs_loss": 0,
      "step": 39150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.385692068429236,
      "grad_norm": 0.6104291677474976,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "ncs_loss": 0,
      "step": 39200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.41679626749611,
      "grad_norm": 0.6918025016784668,
      "learning_rate": 0.0001,
      "loss": 1.0067,
      "ncs_loss": 0,
      "step": 39250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.447900466562984,
      "grad_norm": 0.7767185568809509,
      "learning_rate": 0.0001,
      "loss": 0.999,
      "ncs_loss": 0,
      "step": 39300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.47900466562986,
      "grad_norm": 0.7803546190261841,
      "learning_rate": 0.0001,
      "loss": 1.0028,
      "ncs_loss": 0,
      "step": 39350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.510108864696733,
      "grad_norm": 0.6649572253227234,
      "learning_rate": 0.0001,
      "loss": 0.9997,
      "ncs_loss": 0,
      "step": 39400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.541213063763607,
      "grad_norm": 0.7518303990364075,
      "learning_rate": 0.0001,
      "loss": 1.002,
      "ncs_loss": 0,
      "step": 39450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.57231726283048,
      "grad_norm": 0.634930431842804,
      "learning_rate": 0.0001,
      "loss": 1.009,
      "ncs_loss": 0,
      "step": 39500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.603421461897355,
      "grad_norm": 0.6491918563842773,
      "learning_rate": 0.0001,
      "loss": 1.0072,
      "ncs_loss": 0,
      "step": 39550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.63452566096423,
      "grad_norm": 0.7809754014015198,
      "learning_rate": 0.0001,
      "loss": 1.0016,
      "ncs_loss": 0,
      "step": 39600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.665629860031103,
      "grad_norm": 0.7085527181625366,
      "learning_rate": 0.0001,
      "loss": 0.9945,
      "ncs_loss": 0,
      "step": 39650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.696734059097977,
      "grad_norm": 0.6961644291877747,
      "learning_rate": 0.0001,
      "loss": 0.9914,
      "ncs_loss": 0,
      "step": 39700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.72783825816485,
      "grad_norm": 0.787564218044281,
      "learning_rate": 0.0001,
      "loss": 0.9984,
      "ncs_loss": 0,
      "step": 39750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.758942457231726,
      "grad_norm": 0.6916536688804626,
      "learning_rate": 0.0001,
      "loss": 1.0019,
      "ncs_loss": 0,
      "step": 39800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.7900466562986,
      "grad_norm": 0.6923365592956543,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "ncs_loss": 0,
      "step": 39850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.821150855365474,
      "grad_norm": 0.7293865084648132,
      "learning_rate": 0.0001,
      "loss": 1.0117,
      "ncs_loss": 0,
      "step": 39900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.852255054432348,
      "grad_norm": 0.6458007097244263,
      "learning_rate": 0.0001,
      "loss": 1.0057,
      "ncs_loss": 0,
      "step": 39950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.883359253499222,
      "grad_norm": 0.66485595703125,
      "learning_rate": 0.0001,
      "loss": 1.0015,
      "ncs_loss": 0,
      "step": 40000,
      "z_loss": 0
    },
    {
      "epoch": 24.883359253499222,
      "eval_bleu": 17.2168,
      "eval_gen_len": 24.5784,
      "eval_loss": 2.1458144187927246,
      "eval_runtime": 20.8415,
      "eval_samples_per_second": 48.029,
      "eval_steps_per_second": 1.535,
      "num_experts_activated": 0,
      "step": 40000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.914463452566096,
      "grad_norm": 0.7091982960700989,
      "learning_rate": 0.0001,
      "loss": 1.0083,
      "ncs_loss": 0,
      "step": 40050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.94556765163297,
      "grad_norm": 0.6636844277381897,
      "learning_rate": 0.0001,
      "loss": 1.0127,
      "ncs_loss": 0,
      "step": 40100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 24.976671850699844,
      "grad_norm": 0.6681632995605469,
      "learning_rate": 0.0001,
      "loss": 0.9975,
      "ncs_loss": 0,
      "step": 40150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.00777604976672,
      "grad_norm": 0.7460287809371948,
      "learning_rate": 0.0001,
      "loss": 0.9899,
      "ncs_loss": 0,
      "step": 40200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.038880248833593,
      "grad_norm": 0.6818444132804871,
      "learning_rate": 0.0001,
      "loss": 0.9803,
      "ncs_loss": 0,
      "step": 40250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.069984447900467,
      "grad_norm": 0.7548444867134094,
      "learning_rate": 0.0001,
      "loss": 0.976,
      "ncs_loss": 0,
      "step": 40300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.10108864696734,
      "grad_norm": 0.7403666377067566,
      "learning_rate": 0.0001,
      "loss": 0.974,
      "ncs_loss": 0,
      "step": 40350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.132192846034215,
      "grad_norm": 0.7750322222709656,
      "learning_rate": 0.0001,
      "loss": 0.9793,
      "ncs_loss": 0,
      "step": 40400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.16329704510109,
      "grad_norm": 0.6113134026527405,
      "learning_rate": 0.0001,
      "loss": 0.9874,
      "ncs_loss": 0,
      "step": 40450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.194401244167963,
      "grad_norm": 0.7009645104408264,
      "learning_rate": 0.0001,
      "loss": 0.9811,
      "ncs_loss": 0,
      "step": 40500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.225505443234837,
      "grad_norm": 0.6959640979766846,
      "learning_rate": 0.0001,
      "loss": 0.9897,
      "ncs_loss": 0,
      "step": 40550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.25660964230171,
      "grad_norm": 0.6687171459197998,
      "learning_rate": 0.0001,
      "loss": 0.9766,
      "ncs_loss": 0,
      "step": 40600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.287713841368586,
      "grad_norm": 0.6806685328483582,
      "learning_rate": 0.0001,
      "loss": 0.9861,
      "ncs_loss": 0,
      "step": 40650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.31881804043546,
      "grad_norm": 0.6912494897842407,
      "learning_rate": 0.0001,
      "loss": 0.9731,
      "ncs_loss": 0,
      "step": 40700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.349922239502334,
      "grad_norm": 0.6728039383888245,
      "learning_rate": 0.0001,
      "loss": 0.9769,
      "ncs_loss": 0,
      "step": 40750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.381026438569208,
      "grad_norm": 0.7021745443344116,
      "learning_rate": 0.0001,
      "loss": 0.9979,
      "ncs_loss": 0,
      "step": 40800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.412130637636082,
      "grad_norm": 0.8357207179069519,
      "learning_rate": 0.0001,
      "loss": 0.9886,
      "ncs_loss": 0,
      "step": 40850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.443234836702956,
      "grad_norm": 0.7906169295310974,
      "learning_rate": 0.0001,
      "loss": 0.9919,
      "ncs_loss": 0,
      "step": 40900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.47433903576983,
      "grad_norm": 0.6427354216575623,
      "learning_rate": 0.0001,
      "loss": 0.989,
      "ncs_loss": 0,
      "step": 40950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.505443234836704,
      "grad_norm": 0.7290259599685669,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "ncs_loss": 0,
      "step": 41000,
      "z_loss": 0
    },
    {
      "epoch": 25.505443234836704,
      "eval_bleu": 17.5821,
      "eval_gen_len": 24.6603,
      "eval_loss": 2.1456990242004395,
      "eval_runtime": 20.8366,
      "eval_samples_per_second": 48.04,
      "eval_steps_per_second": 1.536,
      "num_experts_activated": 0,
      "step": 41000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.53654743390358,
      "grad_norm": 0.7226455807685852,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "ncs_loss": 0,
      "step": 41050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.567651632970453,
      "grad_norm": 0.6765322685241699,
      "learning_rate": 0.0001,
      "loss": 0.9872,
      "ncs_loss": 0,
      "step": 41100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.598755832037327,
      "grad_norm": 0.741064727306366,
      "learning_rate": 0.0001,
      "loss": 0.9877,
      "ncs_loss": 0,
      "step": 41150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.6298600311042,
      "grad_norm": 0.6177940964698792,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "ncs_loss": 0,
      "step": 41200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.66096423017107,
      "grad_norm": 0.7272574305534363,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "ncs_loss": 0,
      "step": 41250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.692068429237946,
      "grad_norm": 0.7032728791236877,
      "learning_rate": 0.0001,
      "loss": 0.9944,
      "ncs_loss": 0,
      "step": 41300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.72317262830482,
      "grad_norm": 0.7886571884155273,
      "learning_rate": 0.0001,
      "loss": 0.99,
      "ncs_loss": 0,
      "step": 41350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.754276827371694,
      "grad_norm": 0.7337722778320312,
      "learning_rate": 0.0001,
      "loss": 0.9896,
      "ncs_loss": 0,
      "step": 41400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.785381026438568,
      "grad_norm": 0.7022980451583862,
      "learning_rate": 0.0001,
      "loss": 0.9692,
      "ncs_loss": 0,
      "step": 41450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.816485225505442,
      "grad_norm": 0.65400230884552,
      "learning_rate": 0.0001,
      "loss": 0.9926,
      "ncs_loss": 0,
      "step": 41500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.847589424572316,
      "grad_norm": 0.7273590564727783,
      "learning_rate": 0.0001,
      "loss": 0.9889,
      "ncs_loss": 0,
      "step": 41550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.87869362363919,
      "grad_norm": 0.6365036368370056,
      "learning_rate": 0.0001,
      "loss": 0.9893,
      "ncs_loss": 0,
      "step": 41600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.909797822706064,
      "grad_norm": 0.7279598116874695,
      "learning_rate": 0.0001,
      "loss": 0.9822,
      "ncs_loss": 0,
      "step": 41650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.94090202177294,
      "grad_norm": 0.7883551716804504,
      "learning_rate": 0.0001,
      "loss": 0.9824,
      "ncs_loss": 0,
      "step": 41700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 25.972006220839813,
      "grad_norm": 0.6176496148109436,
      "learning_rate": 0.0001,
      "loss": 0.9942,
      "ncs_loss": 0,
      "step": 41750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.003110419906687,
      "grad_norm": 0.6539803743362427,
      "learning_rate": 0.0001,
      "loss": 0.992,
      "ncs_loss": 0,
      "step": 41800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.03421461897356,
      "grad_norm": 0.6443185806274414,
      "learning_rate": 0.0001,
      "loss": 0.9673,
      "ncs_loss": 0,
      "step": 41850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.065318818040435,
      "grad_norm": 0.7152654528617859,
      "learning_rate": 0.0001,
      "loss": 0.9509,
      "ncs_loss": 0,
      "step": 41900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.09642301710731,
      "grad_norm": 0.7125054001808167,
      "learning_rate": 0.0001,
      "loss": 0.9742,
      "ncs_loss": 0,
      "step": 41950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.127527216174183,
      "grad_norm": 0.6732813715934753,
      "learning_rate": 0.0001,
      "loss": 0.9606,
      "ncs_loss": 0,
      "step": 42000,
      "z_loss": 0
    },
    {
      "epoch": 26.127527216174183,
      "eval_bleu": 17.465,
      "eval_gen_len": 25.2268,
      "eval_loss": 2.1464638710021973,
      "eval_runtime": 21.3288,
      "eval_samples_per_second": 46.932,
      "eval_steps_per_second": 1.5,
      "num_experts_activated": 0,
      "step": 42000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.158631415241057,
      "grad_norm": 0.7201203107833862,
      "learning_rate": 0.0001,
      "loss": 0.9666,
      "ncs_loss": 0,
      "step": 42050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.18973561430793,
      "grad_norm": 0.6349062323570251,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "ncs_loss": 0,
      "step": 42100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.220839813374806,
      "grad_norm": 0.6828593611717224,
      "learning_rate": 0.0001,
      "loss": 0.9656,
      "ncs_loss": 0,
      "step": 42150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.25194401244168,
      "grad_norm": 0.7701557278633118,
      "learning_rate": 0.0001,
      "loss": 0.9879,
      "ncs_loss": 0,
      "step": 42200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.283048211508554,
      "grad_norm": 0.6822377443313599,
      "learning_rate": 0.0001,
      "loss": 0.9701,
      "ncs_loss": 0,
      "step": 42250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.314152410575428,
      "grad_norm": 0.6508288383483887,
      "learning_rate": 0.0001,
      "loss": 0.9616,
      "ncs_loss": 0,
      "step": 42300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.345256609642302,
      "grad_norm": 0.7195929288864136,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "ncs_loss": 0,
      "step": 42350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.376360808709176,
      "grad_norm": 0.7388001084327698,
      "learning_rate": 0.0001,
      "loss": 0.9674,
      "ncs_loss": 0,
      "step": 42400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.40746500777605,
      "grad_norm": 0.7433561086654663,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "ncs_loss": 0,
      "step": 42450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.438569206842924,
      "grad_norm": 0.6455286741256714,
      "learning_rate": 0.0001,
      "loss": 0.9728,
      "ncs_loss": 0,
      "step": 42500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.4696734059098,
      "grad_norm": 0.6554747223854065,
      "learning_rate": 0.0001,
      "loss": 0.9808,
      "ncs_loss": 0,
      "step": 42550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.500777604976673,
      "grad_norm": 0.7305171489715576,
      "learning_rate": 0.0001,
      "loss": 0.9677,
      "ncs_loss": 0,
      "step": 42600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.531881804043547,
      "grad_norm": 0.6644749045372009,
      "learning_rate": 0.0001,
      "loss": 0.9689,
      "ncs_loss": 0,
      "step": 42650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.56298600311042,
      "grad_norm": 0.6380587816238403,
      "learning_rate": 0.0001,
      "loss": 0.9643,
      "ncs_loss": 0,
      "step": 42700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.594090202177295,
      "grad_norm": 0.7014912366867065,
      "learning_rate": 0.0001,
      "loss": 0.9838,
      "ncs_loss": 0,
      "step": 42750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.62519440124417,
      "grad_norm": 0.7018757462501526,
      "learning_rate": 0.0001,
      "loss": 0.9843,
      "ncs_loss": 0,
      "step": 42800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.656298600311043,
      "grad_norm": 0.7240642309188843,
      "learning_rate": 0.0001,
      "loss": 0.9686,
      "ncs_loss": 0,
      "step": 42850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.687402799377917,
      "grad_norm": 0.6537585258483887,
      "learning_rate": 0.0001,
      "loss": 0.9875,
      "ncs_loss": 0,
      "step": 42900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.71850699844479,
      "grad_norm": 0.7101346254348755,
      "learning_rate": 0.0001,
      "loss": 0.9827,
      "ncs_loss": 0,
      "step": 42950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.749611197511665,
      "grad_norm": 0.7037287950515747,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "ncs_loss": 0,
      "step": 43000,
      "z_loss": 0
    },
    {
      "epoch": 26.749611197511665,
      "eval_bleu": 17.6366,
      "eval_gen_len": 24.7413,
      "eval_loss": 2.1456844806671143,
      "eval_runtime": 21.1468,
      "eval_samples_per_second": 47.336,
      "eval_steps_per_second": 1.513,
      "num_experts_activated": 0,
      "step": 43000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.78071539657854,
      "grad_norm": 0.6808388829231262,
      "learning_rate": 0.0001,
      "loss": 0.961,
      "ncs_loss": 0,
      "step": 43050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.811819595645414,
      "grad_norm": 0.7465001344680786,
      "learning_rate": 0.0001,
      "loss": 0.9817,
      "ncs_loss": 0,
      "step": 43100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.842923794712288,
      "grad_norm": 0.6873263716697693,
      "learning_rate": 0.0001,
      "loss": 0.9762,
      "ncs_loss": 0,
      "step": 43150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.87402799377916,
      "grad_norm": 0.6668588519096375,
      "learning_rate": 0.0001,
      "loss": 0.9659,
      "ncs_loss": 0,
      "step": 43200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.905132192846033,
      "grad_norm": 0.8431726098060608,
      "learning_rate": 0.0001,
      "loss": 0.9737,
      "ncs_loss": 0,
      "step": 43250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.936236391912907,
      "grad_norm": 0.6979639530181885,
      "learning_rate": 0.0001,
      "loss": 0.9696,
      "ncs_loss": 0,
      "step": 43300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.96734059097978,
      "grad_norm": 0.6437581181526184,
      "learning_rate": 0.0001,
      "loss": 0.9818,
      "ncs_loss": 0,
      "step": 43350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 26.998444790046655,
      "grad_norm": 0.6702010035514832,
      "learning_rate": 0.0001,
      "loss": 0.9663,
      "ncs_loss": 0,
      "step": 43400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.02954898911353,
      "grad_norm": 0.6520926356315613,
      "learning_rate": 0.0001,
      "loss": 0.9502,
      "ncs_loss": 0,
      "step": 43450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.060653188180403,
      "grad_norm": 0.6904082298278809,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "ncs_loss": 0,
      "step": 43500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.091757387247277,
      "grad_norm": 0.7422065138816833,
      "learning_rate": 0.0001,
      "loss": 0.9378,
      "ncs_loss": 0,
      "step": 43550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.12286158631415,
      "grad_norm": 0.6742038130760193,
      "learning_rate": 0.0001,
      "loss": 0.947,
      "ncs_loss": 0,
      "step": 43600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.153965785381025,
      "grad_norm": 0.6798568964004517,
      "learning_rate": 0.0001,
      "loss": 0.9586,
      "ncs_loss": 0,
      "step": 43650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.1850699844479,
      "grad_norm": 0.6667073369026184,
      "learning_rate": 0.0001,
      "loss": 0.9534,
      "ncs_loss": 0,
      "step": 43700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.216174183514774,
      "grad_norm": 0.8243000507354736,
      "learning_rate": 0.0001,
      "loss": 0.958,
      "ncs_loss": 0,
      "step": 43750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.247278382581648,
      "grad_norm": 0.6116291880607605,
      "learning_rate": 0.0001,
      "loss": 0.9542,
      "ncs_loss": 0,
      "step": 43800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.278382581648522,
      "grad_norm": 0.7157825231552124,
      "learning_rate": 0.0001,
      "loss": 0.963,
      "ncs_loss": 0,
      "step": 43850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.309486780715396,
      "grad_norm": 0.657107949256897,
      "learning_rate": 0.0001,
      "loss": 0.9467,
      "ncs_loss": 0,
      "step": 43900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.34059097978227,
      "grad_norm": 0.737515389919281,
      "learning_rate": 0.0001,
      "loss": 0.9646,
      "ncs_loss": 0,
      "step": 43950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.371695178849144,
      "grad_norm": 0.8245484232902527,
      "learning_rate": 0.0001,
      "loss": 0.968,
      "ncs_loss": 0,
      "step": 44000,
      "z_loss": 0
    },
    {
      "epoch": 27.371695178849144,
      "eval_bleu": 17.5607,
      "eval_gen_len": 24.6304,
      "eval_loss": 2.146174192428589,
      "eval_runtime": 21.3289,
      "eval_samples_per_second": 46.932,
      "eval_steps_per_second": 1.5,
      "num_experts_activated": 0,
      "step": 44000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.40279937791602,
      "grad_norm": 0.6395086646080017,
      "learning_rate": 0.0001,
      "loss": 0.9514,
      "ncs_loss": 0,
      "step": 44050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.433903576982893,
      "grad_norm": 0.6765032410621643,
      "learning_rate": 0.0001,
      "loss": 0.9695,
      "ncs_loss": 0,
      "step": 44100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.465007776049767,
      "grad_norm": 0.6858556866645813,
      "learning_rate": 0.0001,
      "loss": 0.9533,
      "ncs_loss": 0,
      "step": 44150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.49611197511664,
      "grad_norm": 0.6799277663230896,
      "learning_rate": 0.0001,
      "loss": 0.9424,
      "ncs_loss": 0,
      "step": 44200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.527216174183515,
      "grad_norm": 0.6426323652267456,
      "learning_rate": 0.0001,
      "loss": 0.9555,
      "ncs_loss": 0,
      "step": 44250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.55832037325039,
      "grad_norm": 0.6358069181442261,
      "learning_rate": 0.0001,
      "loss": 0.9598,
      "ncs_loss": 0,
      "step": 44300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.589424572317263,
      "grad_norm": 0.7380624413490295,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "ncs_loss": 0,
      "step": 44350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.620528771384137,
      "grad_norm": 0.7458884119987488,
      "learning_rate": 0.0001,
      "loss": 0.9602,
      "ncs_loss": 0,
      "step": 44400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.65163297045101,
      "grad_norm": 0.6314785480499268,
      "learning_rate": 0.0001,
      "loss": 0.9613,
      "ncs_loss": 0,
      "step": 44450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.682737169517885,
      "grad_norm": 0.6754602193832397,
      "learning_rate": 0.0001,
      "loss": 0.9551,
      "ncs_loss": 0,
      "step": 44500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.71384136858476,
      "grad_norm": 0.6316702961921692,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "ncs_loss": 0,
      "step": 44550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.744945567651634,
      "grad_norm": 0.7412410378456116,
      "learning_rate": 0.0001,
      "loss": 0.9577,
      "ncs_loss": 0,
      "step": 44600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.776049766718508,
      "grad_norm": 0.7254838347434998,
      "learning_rate": 0.0001,
      "loss": 0.9444,
      "ncs_loss": 0,
      "step": 44650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.807153965785382,
      "grad_norm": 0.6583567261695862,
      "learning_rate": 0.0001,
      "loss": 0.9632,
      "ncs_loss": 0,
      "step": 44700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.838258164852256,
      "grad_norm": 0.7474557161331177,
      "learning_rate": 0.0001,
      "loss": 0.9578,
      "ncs_loss": 0,
      "step": 44750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.86936236391913,
      "grad_norm": 0.6926620602607727,
      "learning_rate": 0.0001,
      "loss": 0.9694,
      "ncs_loss": 0,
      "step": 44800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.900466562986004,
      "grad_norm": 0.671663761138916,
      "learning_rate": 0.0001,
      "loss": 0.959,
      "ncs_loss": 0,
      "step": 44850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.93157076205288,
      "grad_norm": 0.7434614300727844,
      "learning_rate": 0.0001,
      "loss": 0.9654,
      "ncs_loss": 0,
      "step": 44900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.962674961119752,
      "grad_norm": 0.826890766620636,
      "learning_rate": 0.0001,
      "loss": 0.972,
      "ncs_loss": 0,
      "step": 44950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 27.993779160186627,
      "grad_norm": 0.6999682188034058,
      "learning_rate": 0.0001,
      "loss": 0.9718,
      "ncs_loss": 0,
      "step": 45000,
      "z_loss": 0
    },
    {
      "epoch": 27.993779160186627,
      "eval_bleu": 17.5879,
      "eval_gen_len": 24.7463,
      "eval_loss": 2.1299638748168945,
      "eval_runtime": 20.8602,
      "eval_samples_per_second": 47.986,
      "eval_steps_per_second": 1.534,
      "num_experts_activated": 0,
      "step": 45000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.0248833592535,
      "grad_norm": 0.720034658908844,
      "learning_rate": 0.0001,
      "loss": 0.9387,
      "ncs_loss": 0,
      "step": 45050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.055987558320375,
      "grad_norm": 0.6186943054199219,
      "learning_rate": 0.0001,
      "loss": 0.9438,
      "ncs_loss": 0,
      "step": 45100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.08709175738725,
      "grad_norm": 0.6678705215454102,
      "learning_rate": 0.0001,
      "loss": 0.9388,
      "ncs_loss": 0,
      "step": 45150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.118195956454123,
      "grad_norm": 0.6718001365661621,
      "learning_rate": 0.0001,
      "loss": 0.9353,
      "ncs_loss": 0,
      "step": 45200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.149300155520994,
      "grad_norm": 0.6975369453430176,
      "learning_rate": 0.0001,
      "loss": 0.936,
      "ncs_loss": 0,
      "step": 45250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.180404354587868,
      "grad_norm": 0.6886118054389954,
      "learning_rate": 0.0001,
      "loss": 0.9504,
      "ncs_loss": 0,
      "step": 45300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.211508553654742,
      "grad_norm": 0.6931535005569458,
      "learning_rate": 0.0001,
      "loss": 0.9423,
      "ncs_loss": 0,
      "step": 45350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.242612752721616,
      "grad_norm": 0.6319576501846313,
      "learning_rate": 0.0001,
      "loss": 0.9479,
      "ncs_loss": 0,
      "step": 45400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.27371695178849,
      "grad_norm": 0.7183166146278381,
      "learning_rate": 0.0001,
      "loss": 0.9334,
      "ncs_loss": 0,
      "step": 45450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.304821150855364,
      "grad_norm": 0.6211009621620178,
      "learning_rate": 0.0001,
      "loss": 0.9394,
      "ncs_loss": 0,
      "step": 45500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.33592534992224,
      "grad_norm": 0.6458354592323303,
      "learning_rate": 0.0001,
      "loss": 0.9401,
      "ncs_loss": 0,
      "step": 45550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.367029548989112,
      "grad_norm": 0.6551076173782349,
      "learning_rate": 0.0001,
      "loss": 0.9402,
      "ncs_loss": 0,
      "step": 45600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.398133748055987,
      "grad_norm": 0.6673384308815002,
      "learning_rate": 0.0001,
      "loss": 0.9392,
      "ncs_loss": 0,
      "step": 45650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.42923794712286,
      "grad_norm": 0.7023059725761414,
      "learning_rate": 0.0001,
      "loss": 0.9585,
      "ncs_loss": 0,
      "step": 45700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.460342146189735,
      "grad_norm": 0.6391404867172241,
      "learning_rate": 0.0001,
      "loss": 0.9388,
      "ncs_loss": 0,
      "step": 45750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.49144634525661,
      "grad_norm": 0.7430090308189392,
      "learning_rate": 0.0001,
      "loss": 0.9338,
      "ncs_loss": 0,
      "step": 45800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.522550544323483,
      "grad_norm": 0.6772887110710144,
      "learning_rate": 0.0001,
      "loss": 0.9544,
      "ncs_loss": 0,
      "step": 45850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.553654743390357,
      "grad_norm": 0.6838672161102295,
      "learning_rate": 0.0001,
      "loss": 0.9596,
      "ncs_loss": 0,
      "step": 45900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.58475894245723,
      "grad_norm": 0.7224826812744141,
      "learning_rate": 0.0001,
      "loss": 0.9357,
      "ncs_loss": 0,
      "step": 45950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.615863141524105,
      "grad_norm": 0.6474810242652893,
      "learning_rate": 0.0001,
      "loss": 0.9387,
      "ncs_loss": 0,
      "step": 46000,
      "z_loss": 0
    },
    {
      "epoch": 28.615863141524105,
      "eval_bleu": 17.3176,
      "eval_gen_len": 24.6324,
      "eval_loss": 2.1484830379486084,
      "eval_runtime": 21.0988,
      "eval_samples_per_second": 47.443,
      "eval_steps_per_second": 1.517,
      "num_experts_activated": 0,
      "step": 46000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.64696734059098,
      "grad_norm": 0.607160747051239,
      "learning_rate": 0.0001,
      "loss": 0.9403,
      "ncs_loss": 0,
      "step": 46050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.678071539657854,
      "grad_norm": 0.5988721251487732,
      "learning_rate": 0.0001,
      "loss": 0.9428,
      "ncs_loss": 0,
      "step": 46100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.709175738724728,
      "grad_norm": 0.6457507610321045,
      "learning_rate": 0.0001,
      "loss": 0.943,
      "ncs_loss": 0,
      "step": 46150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.740279937791602,
      "grad_norm": 0.6644067168235779,
      "learning_rate": 0.0001,
      "loss": 0.9595,
      "ncs_loss": 0,
      "step": 46200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.771384136858476,
      "grad_norm": 0.8259938955307007,
      "learning_rate": 0.0001,
      "loss": 0.9478,
      "ncs_loss": 0,
      "step": 46250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.80248833592535,
      "grad_norm": 0.6324615478515625,
      "learning_rate": 0.0001,
      "loss": 0.9463,
      "ncs_loss": 0,
      "step": 46300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.833592534992224,
      "grad_norm": 0.7043923735618591,
      "learning_rate": 0.0001,
      "loss": 0.9558,
      "ncs_loss": 0,
      "step": 46350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.8646967340591,
      "grad_norm": 0.6943201422691345,
      "learning_rate": 0.0001,
      "loss": 0.9523,
      "ncs_loss": 0,
      "step": 46400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.895800933125972,
      "grad_norm": 0.7561798691749573,
      "learning_rate": 0.0001,
      "loss": 0.9511,
      "ncs_loss": 0,
      "step": 46450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.926905132192847,
      "grad_norm": 0.6987091302871704,
      "learning_rate": 0.0001,
      "loss": 0.9506,
      "ncs_loss": 0,
      "step": 46500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.95800933125972,
      "grad_norm": 0.7151916027069092,
      "learning_rate": 0.0001,
      "loss": 0.9536,
      "ncs_loss": 0,
      "step": 46550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 28.989113530326595,
      "grad_norm": 0.7592365741729736,
      "learning_rate": 0.0001,
      "loss": 0.9498,
      "ncs_loss": 0,
      "step": 46600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.02021772939347,
      "grad_norm": 0.6035143136978149,
      "learning_rate": 0.0001,
      "loss": 0.9281,
      "ncs_loss": 0,
      "step": 46650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.051321928460343,
      "grad_norm": 0.6160553693771362,
      "learning_rate": 0.0001,
      "loss": 0.937,
      "ncs_loss": 0,
      "step": 46700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.082426127527217,
      "grad_norm": 0.6478814482688904,
      "learning_rate": 0.0001,
      "loss": 0.9189,
      "ncs_loss": 0,
      "step": 46750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.11353032659409,
      "grad_norm": 0.7044832706451416,
      "learning_rate": 0.0001,
      "loss": 0.9201,
      "ncs_loss": 0,
      "step": 46800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.144634525660965,
      "grad_norm": 0.691188395023346,
      "learning_rate": 0.0001,
      "loss": 0.9296,
      "ncs_loss": 0,
      "step": 46850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.17573872472784,
      "grad_norm": 0.7043675780296326,
      "learning_rate": 0.0001,
      "loss": 0.927,
      "ncs_loss": 0,
      "step": 46900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.206842923794714,
      "grad_norm": 0.6949432492256165,
      "learning_rate": 0.0001,
      "loss": 0.9222,
      "ncs_loss": 0,
      "step": 46950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.237947122861588,
      "grad_norm": 0.6877078413963318,
      "learning_rate": 0.0001,
      "loss": 0.9378,
      "ncs_loss": 0,
      "step": 47000,
      "z_loss": 0
    },
    {
      "epoch": 29.237947122861588,
      "eval_bleu": 17.4231,
      "eval_gen_len": 24.6853,
      "eval_loss": 2.1448421478271484,
      "eval_runtime": 21.1413,
      "eval_samples_per_second": 47.348,
      "eval_steps_per_second": 1.514,
      "num_experts_activated": 0,
      "step": 47000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.269051321928462,
      "grad_norm": 0.6669583320617676,
      "learning_rate": 0.0001,
      "loss": 0.9308,
      "ncs_loss": 0,
      "step": 47050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.300155520995336,
      "grad_norm": 0.7347750067710876,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "ncs_loss": 0,
      "step": 47100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.33125972006221,
      "grad_norm": 0.676388680934906,
      "learning_rate": 0.0001,
      "loss": 0.9308,
      "ncs_loss": 0,
      "step": 47150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.362363919129084,
      "grad_norm": 0.7174765467643738,
      "learning_rate": 0.0001,
      "loss": 0.9406,
      "ncs_loss": 0,
      "step": 47200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.393468118195955,
      "grad_norm": 0.6787695288658142,
      "learning_rate": 0.0001,
      "loss": 0.9307,
      "ncs_loss": 0,
      "step": 47250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.42457231726283,
      "grad_norm": 0.6850630044937134,
      "learning_rate": 0.0001,
      "loss": 0.9432,
      "ncs_loss": 0,
      "step": 47300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.455676516329703,
      "grad_norm": 0.6759607791900635,
      "learning_rate": 0.0001,
      "loss": 0.9216,
      "ncs_loss": 0,
      "step": 47350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.486780715396577,
      "grad_norm": 0.7287168502807617,
      "learning_rate": 0.0001,
      "loss": 0.9306,
      "ncs_loss": 0,
      "step": 47400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.51788491446345,
      "grad_norm": 0.7100644707679749,
      "learning_rate": 0.0001,
      "loss": 0.931,
      "ncs_loss": 0,
      "step": 47450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.548989113530325,
      "grad_norm": 0.6264258623123169,
      "learning_rate": 0.0001,
      "loss": 0.9289,
      "ncs_loss": 0,
      "step": 47500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.5800933125972,
      "grad_norm": 0.6382326483726501,
      "learning_rate": 0.0001,
      "loss": 0.9367,
      "ncs_loss": 0,
      "step": 47550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.611197511664074,
      "grad_norm": 0.7470478415489197,
      "learning_rate": 0.0001,
      "loss": 0.9314,
      "ncs_loss": 0,
      "step": 47600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.642301710730948,
      "grad_norm": 0.6991175413131714,
      "learning_rate": 0.0001,
      "loss": 0.9427,
      "ncs_loss": 0,
      "step": 47650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.673405909797822,
      "grad_norm": 0.7297778725624084,
      "learning_rate": 0.0001,
      "loss": 0.9462,
      "ncs_loss": 0,
      "step": 47700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.704510108864696,
      "grad_norm": 0.690057098865509,
      "learning_rate": 0.0001,
      "loss": 0.9291,
      "ncs_loss": 0,
      "step": 47750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.73561430793157,
      "grad_norm": 0.7347826361656189,
      "learning_rate": 0.0001,
      "loss": 0.9356,
      "ncs_loss": 0,
      "step": 47800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.766718506998444,
      "grad_norm": 0.6361097693443298,
      "learning_rate": 0.0001,
      "loss": 0.9349,
      "ncs_loss": 0,
      "step": 47850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.79782270606532,
      "grad_norm": 0.6683250069618225,
      "learning_rate": 0.0001,
      "loss": 0.9286,
      "ncs_loss": 0,
      "step": 47900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.828926905132192,
      "grad_norm": 0.8200650811195374,
      "learning_rate": 0.0001,
      "loss": 0.9366,
      "ncs_loss": 0,
      "step": 47950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.860031104199066,
      "grad_norm": 0.6939502954483032,
      "learning_rate": 0.0001,
      "loss": 0.9329,
      "ncs_loss": 0,
      "step": 48000,
      "z_loss": 0
    },
    {
      "epoch": 29.860031104199066,
      "eval_bleu": 17.8358,
      "eval_gen_len": 24.9301,
      "eval_loss": 2.1361045837402344,
      "eval_runtime": 21.332,
      "eval_samples_per_second": 46.925,
      "eval_steps_per_second": 1.5,
      "num_experts_activated": 0,
      "step": 48000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.89113530326594,
      "grad_norm": 0.8181344866752625,
      "learning_rate": 0.0001,
      "loss": 0.9343,
      "ncs_loss": 0,
      "step": 48050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.922239502332815,
      "grad_norm": 0.6204776167869568,
      "learning_rate": 0.0001,
      "loss": 0.9377,
      "ncs_loss": 0,
      "step": 48100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.95334370139969,
      "grad_norm": 0.7156290411949158,
      "learning_rate": 0.0001,
      "loss": 0.953,
      "ncs_loss": 0,
      "step": 48150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 29.984447900466563,
      "grad_norm": 0.7446609139442444,
      "learning_rate": 0.0001,
      "loss": 0.9336,
      "ncs_loss": 0,
      "step": 48200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.015552099533437,
      "grad_norm": 0.6083641648292542,
      "learning_rate": 0.0001,
      "loss": 0.9271,
      "ncs_loss": 0,
      "step": 48250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.04665629860031,
      "grad_norm": 0.7202538251876831,
      "learning_rate": 0.0001,
      "loss": 0.9161,
      "ncs_loss": 0,
      "step": 48300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.077760497667185,
      "grad_norm": 0.6672229766845703,
      "learning_rate": 0.0001,
      "loss": 0.9178,
      "ncs_loss": 0,
      "step": 48350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.10886469673406,
      "grad_norm": 0.7514326572418213,
      "learning_rate": 0.0001,
      "loss": 0.9069,
      "ncs_loss": 0,
      "step": 48400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.139968895800934,
      "grad_norm": 0.6938700079917908,
      "learning_rate": 0.0001,
      "loss": 0.9166,
      "ncs_loss": 0,
      "step": 48450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.171073094867808,
      "grad_norm": 0.6762755513191223,
      "learning_rate": 0.0001,
      "loss": 0.9086,
      "ncs_loss": 0,
      "step": 48500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.20217729393468,
      "grad_norm": 0.7288151979446411,
      "learning_rate": 0.0001,
      "loss": 0.9159,
      "ncs_loss": 0,
      "step": 48550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.233281493001556,
      "grad_norm": 0.7039327621459961,
      "learning_rate": 0.0001,
      "loss": 0.9185,
      "ncs_loss": 0,
      "step": 48600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.26438569206843,
      "grad_norm": 0.7305271029472351,
      "learning_rate": 0.0001,
      "loss": 0.9244,
      "ncs_loss": 0,
      "step": 48650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.295489891135304,
      "grad_norm": 0.8092965483665466,
      "learning_rate": 0.0001,
      "loss": 0.9225,
      "ncs_loss": 0,
      "step": 48700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.326594090202178,
      "grad_norm": 0.7128342986106873,
      "learning_rate": 0.0001,
      "loss": 0.9097,
      "ncs_loss": 0,
      "step": 48750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.357698289269052,
      "grad_norm": 0.7354971766471863,
      "learning_rate": 0.0001,
      "loss": 0.9163,
      "ncs_loss": 0,
      "step": 48800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.388802488335926,
      "grad_norm": 0.735009491443634,
      "learning_rate": 0.0001,
      "loss": 0.9385,
      "ncs_loss": 0,
      "step": 48850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.4199066874028,
      "grad_norm": 0.7765331268310547,
      "learning_rate": 0.0001,
      "loss": 0.9175,
      "ncs_loss": 0,
      "step": 48900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.451010886469675,
      "grad_norm": 0.7067940831184387,
      "learning_rate": 0.0001,
      "loss": 0.9187,
      "ncs_loss": 0,
      "step": 48950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.48211508553655,
      "grad_norm": 0.6640716195106506,
      "learning_rate": 0.0001,
      "loss": 0.9258,
      "ncs_loss": 0,
      "step": 49000,
      "z_loss": 0
    },
    {
      "epoch": 30.48211508553655,
      "eval_bleu": 17.9496,
      "eval_gen_len": 24.8012,
      "eval_loss": 2.1354587078094482,
      "eval_runtime": 21.6046,
      "eval_samples_per_second": 46.333,
      "eval_steps_per_second": 1.481,
      "num_experts_activated": 0,
      "step": 49000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.513219284603423,
      "grad_norm": 0.8036044239997864,
      "learning_rate": 0.0001,
      "loss": 0.9176,
      "ncs_loss": 0,
      "step": 49050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.544323483670297,
      "grad_norm": 0.8491994738578796,
      "learning_rate": 0.0001,
      "loss": 0.9106,
      "ncs_loss": 0,
      "step": 49100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.57542768273717,
      "grad_norm": 0.6712207198143005,
      "learning_rate": 0.0001,
      "loss": 0.9195,
      "ncs_loss": 0,
      "step": 49150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.606531881804045,
      "grad_norm": 0.7318969368934631,
      "learning_rate": 0.0001,
      "loss": 0.9261,
      "ncs_loss": 0,
      "step": 49200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.63763608087092,
      "grad_norm": 0.6696897745132446,
      "learning_rate": 0.0001,
      "loss": 0.9157,
      "ncs_loss": 0,
      "step": 49250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.66874027993779,
      "grad_norm": 0.6482118368148804,
      "learning_rate": 0.0001,
      "loss": 0.9197,
      "ncs_loss": 0,
      "step": 49300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.699844479004664,
      "grad_norm": 0.7066606283187866,
      "learning_rate": 0.0001,
      "loss": 0.9317,
      "ncs_loss": 0,
      "step": 49350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.730948678071538,
      "grad_norm": 0.6517397165298462,
      "learning_rate": 0.0001,
      "loss": 0.9209,
      "ncs_loss": 0,
      "step": 49400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.762052877138412,
      "grad_norm": 0.6305783987045288,
      "learning_rate": 0.0001,
      "loss": 0.9236,
      "ncs_loss": 0,
      "step": 49450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.793157076205286,
      "grad_norm": 0.6276929974555969,
      "learning_rate": 0.0001,
      "loss": 0.9312,
      "ncs_loss": 0,
      "step": 49500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.82426127527216,
      "grad_norm": 0.6381257772445679,
      "learning_rate": 0.0001,
      "loss": 0.9292,
      "ncs_loss": 0,
      "step": 49550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.855365474339035,
      "grad_norm": 0.6642502546310425,
      "learning_rate": 0.0001,
      "loss": 0.9375,
      "ncs_loss": 0,
      "step": 49600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.88646967340591,
      "grad_norm": 0.6690439581871033,
      "learning_rate": 0.0001,
      "loss": 0.9182,
      "ncs_loss": 0,
      "step": 49650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.917573872472783,
      "grad_norm": 0.6815733909606934,
      "learning_rate": 0.0001,
      "loss": 0.9218,
      "ncs_loss": 0,
      "step": 49700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.948678071539657,
      "grad_norm": 0.6338468194007874,
      "learning_rate": 0.0001,
      "loss": 0.9333,
      "ncs_loss": 0,
      "step": 49750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 30.97978227060653,
      "grad_norm": 0.7194634675979614,
      "learning_rate": 0.0001,
      "loss": 0.9318,
      "ncs_loss": 0,
      "step": 49800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.010886469673405,
      "grad_norm": 0.8180971741676331,
      "learning_rate": 0.0001,
      "loss": 0.9184,
      "ncs_loss": 0,
      "step": 49850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.04199066874028,
      "grad_norm": 0.7679587006568909,
      "learning_rate": 0.0001,
      "loss": 0.9027,
      "ncs_loss": 0,
      "step": 49900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.073094867807153,
      "grad_norm": 0.6382010579109192,
      "learning_rate": 0.0001,
      "loss": 0.9052,
      "ncs_loss": 0,
      "step": 49950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.104199066874028,
      "grad_norm": 0.6907238364219666,
      "learning_rate": 0.0001,
      "loss": 0.9052,
      "ncs_loss": 0,
      "step": 50000,
      "z_loss": 0
    },
    {
      "epoch": 31.104199066874028,
      "eval_bleu": 17.8838,
      "eval_gen_len": 24.9101,
      "eval_loss": 2.1469154357910156,
      "eval_runtime": 21.8171,
      "eval_samples_per_second": 45.881,
      "eval_steps_per_second": 1.467,
      "num_experts_activated": 0,
      "step": 50000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.1353032659409,
      "grad_norm": 0.6878834366798401,
      "learning_rate": 0.0001,
      "loss": 0.908,
      "ncs_loss": 0,
      "step": 50050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.166407465007776,
      "grad_norm": 0.6329582929611206,
      "learning_rate": 0.0001,
      "loss": 0.898,
      "ncs_loss": 0,
      "step": 50100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.19751166407465,
      "grad_norm": 0.6415125131607056,
      "learning_rate": 0.0001,
      "loss": 0.9122,
      "ncs_loss": 0,
      "step": 50150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.228615863141524,
      "grad_norm": 0.6728033423423767,
      "learning_rate": 0.0001,
      "loss": 0.9182,
      "ncs_loss": 0,
      "step": 50200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.259720062208398,
      "grad_norm": 0.6928843259811401,
      "learning_rate": 0.0001,
      "loss": 0.9045,
      "ncs_loss": 0,
      "step": 50250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.290824261275272,
      "grad_norm": 0.7000945210456848,
      "learning_rate": 0.0001,
      "loss": 0.9022,
      "ncs_loss": 0,
      "step": 50300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.321928460342146,
      "grad_norm": 0.8001999258995056,
      "learning_rate": 0.0001,
      "loss": 0.8967,
      "ncs_loss": 0,
      "step": 50350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.35303265940902,
      "grad_norm": 0.7275904417037964,
      "learning_rate": 0.0001,
      "loss": 0.9134,
      "ncs_loss": 0,
      "step": 50400,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.384136858475895,
      "grad_norm": 0.6631946563720703,
      "learning_rate": 0.0001,
      "loss": 0.9169,
      "ncs_loss": 0,
      "step": 50450,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.41524105754277,
      "grad_norm": 0.6823733448982239,
      "learning_rate": 0.0001,
      "loss": 0.9085,
      "ncs_loss": 0,
      "step": 50500,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.446345256609643,
      "grad_norm": 0.6356868743896484,
      "learning_rate": 0.0001,
      "loss": 0.9182,
      "ncs_loss": 0,
      "step": 50550,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.477449455676517,
      "grad_norm": 0.7537232637405396,
      "learning_rate": 0.0001,
      "loss": 0.906,
      "ncs_loss": 0,
      "step": 50600,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.50855365474339,
      "grad_norm": 0.6728014349937439,
      "learning_rate": 0.0001,
      "loss": 0.9042,
      "ncs_loss": 0,
      "step": 50650,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.539657853810265,
      "grad_norm": 0.7275651693344116,
      "learning_rate": 0.0001,
      "loss": 0.9107,
      "ncs_loss": 0,
      "step": 50700,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.57076205287714,
      "grad_norm": 0.7459551095962524,
      "learning_rate": 0.0001,
      "loss": 0.9054,
      "ncs_loss": 0,
      "step": 50750,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.601866251944013,
      "grad_norm": 0.6630528569221497,
      "learning_rate": 0.0001,
      "loss": 0.8969,
      "ncs_loss": 0,
      "step": 50800,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.632970451010888,
      "grad_norm": 0.6949681043624878,
      "learning_rate": 0.0001,
      "loss": 0.9167,
      "ncs_loss": 0,
      "step": 50850,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.66407465007776,
      "grad_norm": 0.7600764036178589,
      "learning_rate": 0.0001,
      "loss": 0.9207,
      "ncs_loss": 0,
      "step": 50900,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.695178849144636,
      "grad_norm": 0.6513597369194031,
      "learning_rate": 0.0001,
      "loss": 0.9054,
      "ncs_loss": 0,
      "step": 50950,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.72628304821151,
      "grad_norm": 0.6527190208435059,
      "learning_rate": 0.0001,
      "loss": 0.9188,
      "ncs_loss": 0,
      "step": 51000,
      "z_loss": 0
    },
    {
      "epoch": 31.72628304821151,
      "eval_bleu": 17.9982,
      "eval_gen_len": 25.0559,
      "eval_loss": 2.1415584087371826,
      "eval_runtime": 21.3571,
      "eval_samples_per_second": 46.87,
      "eval_steps_per_second": 1.498,
      "num_experts_activated": 0,
      "step": 51000
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.757387247278384,
      "grad_norm": 0.7266062498092651,
      "learning_rate": 0.0001,
      "loss": 0.9215,
      "ncs_loss": 0,
      "step": 51050,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.788491446345258,
      "grad_norm": 0.6936386823654175,
      "learning_rate": 0.0001,
      "loss": 0.9063,
      "ncs_loss": 0,
      "step": 51100,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.819595645412132,
      "grad_norm": 0.743186891078949,
      "learning_rate": 0.0001,
      "loss": 0.9123,
      "ncs_loss": 0,
      "step": 51150,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.850699844479006,
      "grad_norm": 0.6879967451095581,
      "learning_rate": 0.0001,
      "loss": 0.9261,
      "ncs_loss": 0,
      "step": 51200,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.881804043545877,
      "grad_norm": 0.7190576195716858,
      "learning_rate": 0.0001,
      "loss": 0.9192,
      "ncs_loss": 0,
      "step": 51250,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.91290824261275,
      "grad_norm": 0.6573867797851562,
      "learning_rate": 0.0001,
      "loss": 0.9193,
      "ncs_loss": 0,
      "step": 51300,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.944012441679625,
      "grad_norm": 0.6931105256080627,
      "learning_rate": 0.0001,
      "loss": 0.9057,
      "ncs_loss": 0,
      "step": 51350,
      "z_loss": 0
    },
    {
      "aux_loss": 0,
      "cb_loss": 0,
      "epoch": 31.9751166407465,
      "grad_norm": 0.8203558325767517,
      "learning_rate": 0.0001,
      "loss": 0.9089,
      "ncs_loss": 0,
      "step": 51400,
      "z_loss": 0
    }
  ],
  "logging_steps": 50,
  "max_steps": 64280,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 40,
  "save_steps": 1.0,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 7.511087142503055e+17,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}