{"train/loss": 1.4437, "train/grad_norm": 1.8876476287841797, "train/learning_rate": 0.0, "train/epoch": 0.44, "train/global_step": 60, "_timestamp": 1711082900.8391073, "_runtime": 853.2736451625824, "_step": 6, "train_runtime": 866.0323, "train_samples_per_second": 0.277, "train_steps_per_second": 0.069, "total_flos": 1585974939893760.0, "train_loss": 1.606863021850586}