{"train/loss": 0.4749, "train/grad_norm": 1.0544670820236206, "train/learning_rate": 0.0, "train/epoch": 48.0, "train/global_step": 300, "_timestamp": 1713005523.5123792, "_runtime": 4269.095329284668, "_step": 96, "eval/loss": 1.6078672409057617, "eval/runtime": 9.2111, "eval/samples_per_second": 4.125, "eval/steps_per_second": 0.76, "train_runtime": 4274.3723, "train_samples_per_second": 1.743, "train_steps_per_second": 0.07, "total_flos": 450724738867200.0, "train_loss": 0.79365203221639}