onisj commited on Apr 23, 2025

Commit

bb92ae3

verified ·

1 Parent(s): 3f03384

Add files using upload-large-folder tool

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +3 -0
bert_embeddings.npy +3 -0
distilgpt2/config.json +46 -0
distilgpt2/generation_config.json +6 -0
distilgpt2/merges.txt +0 -0
distilgpt2/tokenizer.json +0 -0
distilgpt2/vocab.json +0 -0
emotion_classifier/checkpoint-119517/scheduler.pt +3 -0
emotion_classifier/checkpoint-119517/training_args.bin +3 -0
emotion_classifier/checkpoint-39839/model.safetensors +3 -0
emotion_classifier/checkpoint-39839/rng_state.pth +3 -0
emotion_classifier/checkpoint-39839/scheduler.pt +3 -0
emotion_classifier/checkpoint-39839/training_args.bin +3 -0
emotion_classifier/checkpoint-79678/rng_state.pth +3 -0
emotion_classifier/checkpoint-79678/scheduler.pt +3 -0
emotion_classifier/checkpoint-79678/training_args.bin +3 -0
emotion_classifier/model.safetensors +3 -0
fine_tuned_distilgpt2_lora/.DS_Store +3 -0
fine_tuned_distilgpt2_lora/adapter_model.safetensors +3 -0
fine_tuned_distilgpt2_lora/checkpoint-1598250/optimizer.pt +3 -0
fine_tuned_distilgpt2_lora/checkpoint-1598250/trainer_state.json +3 -0
fine_tuned_distilgpt2_lora/checkpoint-1598264/adapter_model.safetensors +3 -0
fine_tuned_distilgpt2_lora/checkpoint-1598264/optimizer.pt +3 -0
fine_tuned_distilgpt2_lora/checkpoint-1598264/rng_state.pth +3 -0
fine_tuned_distilgpt2_lora/checkpoint-1598264/trainer_state.json +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1743370296.onisj.local.78999.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1743561793.onisj.local.62916.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1743789658.onisj.local.2551.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1743943210.onisj.local.11693.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744027345.onisj.local.13791.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744235031.onisj.local.14287.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744425415.onisj.local.3156.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744651592.onisj.local.35391.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744799093.onisj.local.6118.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744891112.onisj.local.34883.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744987584.onisj.local.14707.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1745107869.onisj.local.23033.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1745170183.onisj.local.36505.0 +3 -0
fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1745408660.onisj.local.2317.0 +3 -0
fine_tuned_gpt2/checkpoint-1000/config.json +39 -0
fine_tuned_gpt2/checkpoint-1000/generation_config.json +6 -0
fine_tuned_gpt2/checkpoint-1000/trainer_state.json +1533 -0
fine_tuned_gpt2/checkpoint-1500/config.json +39 -0
fine_tuned_gpt2/checkpoint-1500/generation_config.json +6 -0
fine_tuned_gpt2/checkpoint-1500/trainer_state.json +2283 -0
fine_tuned_gpt2/checkpoint-2000/config.json +39 -0
fine_tuned_gpt2/checkpoint-2000/generation_config.json +6 -0
fine_tuned_gpt2/checkpoint-2000/trainer_state.json +3033 -0
fine_tuned_gpt2/checkpoint-2500/config.json +39 -0
fine_tuned_gpt2/checkpoint-2500/generation_config.json +6 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+fine_tuned_distilgpt2_lora/.DS_Store filter=lfs diff=lfs merge=lfs -text
+fine_tuned_distilgpt2_lora/checkpoint-1598264/trainer_state.json filter=lfs diff=lfs merge=lfs -text
+fine_tuned_distilgpt2_lora/checkpoint-1598250/trainer_state.json filter=lfs diff=lfs merge=lfs -text

bert_embeddings.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:929ccff1583416e52fce954303e894472b886d779d6be5cce6770d129d47fa06
+size 30720128

distilgpt2/config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "_name_or_path": "distilgpt2",
+  "_num_labels": 1,
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 6,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

distilgpt2/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}

distilgpt2/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

distilgpt2/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

distilgpt2/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

emotion_classifier/checkpoint-119517/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f956e6aa91e4b40b252e821e4419f726f38a3dd1527f3e5ba9e02748126fbbe
+size 1064

emotion_classifier/checkpoint-119517/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5d7a07b9baeaf2d2861a371db2a2874fad2ed4279f4f6090f2fd66dff8685f6
+size 5368

emotion_classifier/checkpoint-39839/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2230ad442cbb1df6d6c1a9a3cf45b64a9e9a67bbd723f289d077cb36b24d5768
+size 267838720

emotion_classifier/checkpoint-39839/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b182573f61d8bcf5eaefcbf8f98d8734b6db51b44ad36aed3a305c431539fa1
+size 13990

emotion_classifier/checkpoint-39839/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f939aa4dea0ee2da0db573c3063761c71d749cf8b3163284a82833fb3a41df77
+size 1064

emotion_classifier/checkpoint-39839/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5d7a07b9baeaf2d2861a371db2a2874fad2ed4279f4f6090f2fd66dff8685f6
+size 5368

emotion_classifier/checkpoint-79678/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06e55bfc8723f269a626afca0be6f7def5753f3bb265436b94c5580b703cfcc7
+size 13990

emotion_classifier/checkpoint-79678/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebe79402ff79dac5e3b3630d224890b66813f45fcdf401cc026efe2ee5c3778b
+size 1064

emotion_classifier/checkpoint-79678/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a5d7a07b9baeaf2d2861a371db2a2874fad2ed4279f4f6090f2fd66dff8685f6
+size 5368

emotion_classifier/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a70113e18da0efe55f4a251403eaf2c6835ed53f912852136d1e2786436d2740
+size 267838720

fine_tuned_distilgpt2_lora/.DS_Store ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2dae9519a8ff736077d1b8b10bf4ab5e54cdb67b555355050c383e1ac3836029
+size 1257476

fine_tuned_distilgpt2_lora/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89df27fcd8c25b26a69ace477c641628b9488755f7f39d8e0c784b001d9ac66c
+size 591352

fine_tuned_distilgpt2_lora/checkpoint-1598250/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb5a23a45428aecadd326d34876ac841a4071dbf1bd75c035ea61d26d471b3b0
+size 1190010

fine_tuned_distilgpt2_lora/checkpoint-1598250/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3296bd356e5463d7a027c6259312aa23a67d9bf247304739b5912576e54315e
+size 41046620

fine_tuned_distilgpt2_lora/checkpoint-1598264/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89df27fcd8c25b26a69ace477c641628b9488755f7f39d8e0c784b001d9ac66c
+size 591352

fine_tuned_distilgpt2_lora/checkpoint-1598264/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc0ea97a74aaa2a7a8d97ca2f438469a2e90daf1f0c09e7bd5b693c82a754278
+size 1190010

fine_tuned_distilgpt2_lora/checkpoint-1598264/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b182573f61d8bcf5eaefcbf8f98d8734b6db51b44ad36aed3a305c431539fa1
+size 13990

fine_tuned_distilgpt2_lora/checkpoint-1598264/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55f8db5d2ee4b09661ac74ac27d94a5e556d229141cb898e46625e59d3492792
+size 41046862

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1743370296.onisj.local.78999.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7897cfaecdf199d6c32c117c223554ceaf26d3ecb644da0068f68e8aacf6a041
+size 827758

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1743561793.onisj.local.62916.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e0a379458c656fa84348b30d37a050dac37a57e4f8767674056a62f304a3a48
+size 2348158

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1743789658.onisj.local.2551.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2a3b8d000e26b6be05fffb5abf580ebae41f8452775439f56e315fb6518e4c4
+size 2953630

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1743943210.onisj.local.11693.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d67d1cc912eec2602f7d42db58edebf1aaee4a11fee2dd3a2a4164e70da681f
+size 2609230

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744027345.onisj.local.13791.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5105e93b369438ad7faab1f99283d7dfe79fe1330fbf46fa09e635d0d06a9fd0
+size 2292718

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744235031.onisj.local.14287.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:928654377ffed2cecc7b2927d89d79dab894bfb4983a8b5d5b87fa7a8fee0d48
+size 6902974

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744425415.onisj.local.3156.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7819a17aa9abd1f022f291e4a8fe287fe2cf04ecebde4eab10ddce5cdbd01af5
+size 6997390

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744651592.onisj.local.35391.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4834932e0d9e9e708a32c6ed1226c853685dbbf232ab43d21bcd303e95c3c94a
+size 5790814

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744799093.onisj.local.6118.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:40daacaac8956b4ab1cb9245b79f077cfb4985b3152f374a7af4f4868bf89a22
+size 4180702

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744891112.onisj.local.34883.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:558ce9a3c5be16eecba9df2dfca91e69d7fe4d8f4c59e5d7db6180d9b885f4bb
+size 2421790

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1744987584.onisj.local.14707.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:015fa1146ade3c8533c22c2a268769e492a69615fcb81a4299d9b7413639bacd
+size 3498670

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1745107869.onisj.local.23033.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f3b9746ecabfffcd36e24841eb3a6e312db5bf43f9180ab0b8e43dbce47c264
+size 2514526

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1745170183.onisj.local.36505.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a62da4b4fc5514fa99ee298ce3c5e0abb87dfa552754a50fac319ab304bc69be
+size 7136206

fine_tuned_distilgpt2_lora/runs/events.out.tfevents.1745408660.onisj.local.2317.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef2f9f6005ef4ab3f6300dd37c40b3f0d7457efcd5c1c974065191576796e4be
+size 174767

fine_tuned_gpt2/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "/Users/user/projects/MindPadiBig/mindpadi/models/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

fine_tuned_gpt2/checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}

fine_tuned_gpt2/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1533 @@

+{
+  "best_metric": 1.9095934629440308,
+  "best_model_checkpoint": "/Users/user/projects/MindPadiBig/mindpadi/models/fine_tuned_gpt2/checkpoint-1000",
+  "epoch": 1.0,
+  "eval_steps": 10,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 126.21493530273438,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 6.9352,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 6.456012725830078,
+      "eval_runtime": 128.7117,
+      "eval_samples_per_second": 7.769,
+      "eval_steps_per_second": 1.942,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 112.57171630859375,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 6.2877,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 6.174145698547363,
+      "eval_runtime": 133.4573,
+      "eval_samples_per_second": 7.493,
+      "eval_steps_per_second": 1.873,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 185.73190307617188,
+      "learning_rate": 3e-06,
+      "loss": 5.9569,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 5.594101428985596,
+      "eval_runtime": 136.3272,
+      "eval_samples_per_second": 7.335,
+      "eval_steps_per_second": 1.834,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 160.77322387695312,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 4.9783,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 4.95811128616333,
+      "eval_runtime": 123.0408,
+      "eval_samples_per_second": 8.127,
+      "eval_steps_per_second": 2.032,
+      "step": 40
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 71.51310729980469,
+      "learning_rate": 5e-06,
+      "loss": 4.3123,
+      "step": 50
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 4.30466890335083,
+      "eval_runtime": 117.1478,
+      "eval_samples_per_second": 8.536,
+      "eval_steps_per_second": 2.134,
+      "step": 50
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 55.53121566772461,
+      "learning_rate": 6e-06,
+      "loss": 3.7047,
+      "step": 60
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 3.8378841876983643,
+      "eval_runtime": 109.8285,
+      "eval_samples_per_second": 9.105,
+      "eval_steps_per_second": 2.276,
+      "step": 60
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 16.639528274536133,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 4.1835,
+      "step": 70
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 3.6265947818756104,
+      "eval_runtime": 107.5258,
+      "eval_samples_per_second": 9.3,
+      "eval_steps_per_second": 2.325,
+      "step": 70
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 11.000739097595215,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 3.0598,
+      "step": 80
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 3.5009496212005615,
+      "eval_runtime": 105.6005,
+      "eval_samples_per_second": 9.47,
+      "eval_steps_per_second": 2.367,
+      "step": 80
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 18.876184463500977,
+      "learning_rate": 9e-06,
+      "loss": 3.0835,
+      "step": 90
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 3.402592182159424,
+      "eval_runtime": 106.8507,
+      "eval_samples_per_second": 9.359,
+      "eval_steps_per_second": 2.34,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 10.568647384643555,
+      "learning_rate": 1e-05,
+      "loss": 3.5607,
+      "step": 100
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 3.3077728748321533,
+      "eval_runtime": 107.8277,
+      "eval_samples_per_second": 9.274,
+      "eval_steps_per_second": 2.319,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 6.663860321044922,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 3.3173,
+      "step": 110
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 3.221048355102539,
+      "eval_runtime": 104.8207,
+      "eval_samples_per_second": 9.54,
+      "eval_steps_per_second": 2.385,
+      "step": 110
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 9.180710792541504,
+      "learning_rate": 1.2e-05,
+      "loss": 3.4318,
+      "step": 120
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 3.1418848037719727,
+      "eval_runtime": 104.9529,
+      "eval_samples_per_second": 9.528,
+      "eval_steps_per_second": 2.382,
+      "step": 120
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 7.3332414627075195,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 3.1961,
+      "step": 130
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 3.069470167160034,
+      "eval_runtime": 107.1455,
+      "eval_samples_per_second": 9.333,
+      "eval_steps_per_second": 2.333,
+      "step": 130
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 11.190179824829102,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 2.821,
+      "step": 140
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.998840093612671,
+      "eval_runtime": 109.7303,
+      "eval_samples_per_second": 9.113,
+      "eval_steps_per_second": 2.278,
+      "step": 140
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 10.532099723815918,
+      "learning_rate": 1.5e-05,
+      "loss": 2.8245,
+      "step": 150
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.927992820739746,
+      "eval_runtime": 112.3035,
+      "eval_samples_per_second": 8.904,
+      "eval_steps_per_second": 2.226,
+      "step": 150
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 9.649062156677246,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 2.9165,
+      "step": 160
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.8786165714263916,
+      "eval_runtime": 128.1716,
+      "eval_samples_per_second": 7.802,
+      "eval_steps_per_second": 1.951,
+      "step": 160
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 9.107309341430664,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 3.1418,
+      "step": 170
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.8244595527648926,
+      "eval_runtime": 125.0759,
+      "eval_samples_per_second": 7.995,
+      "eval_steps_per_second": 1.999,
+      "step": 170
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 13.698325157165527,
+      "learning_rate": 1.8e-05,
+      "loss": 3.0323,
+      "step": 180
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.772019386291504,
+      "eval_runtime": 129.6329,
+      "eval_samples_per_second": 7.714,
+      "eval_steps_per_second": 1.929,
+      "step": 180
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 11.200780868530273,
+      "learning_rate": 1.9e-05,
+      "loss": 2.9199,
+      "step": 190
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.7285261154174805,
+      "eval_runtime": 105.2039,
+      "eval_samples_per_second": 9.505,
+      "eval_steps_per_second": 2.376,
+      "step": 190
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 11.479965209960938,
+      "learning_rate": 2e-05,
+      "loss": 2.6733,
+      "step": 200
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.695300340652466,
+      "eval_runtime": 102.9704,
+      "eval_samples_per_second": 9.712,
+      "eval_steps_per_second": 2.428,
+      "step": 200
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 11.359460830688477,
+      "learning_rate": 2.1e-05,
+      "loss": 2.8493,
+      "step": 210
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.66671085357666,
+      "eval_runtime": 101.0064,
+      "eval_samples_per_second": 9.9,
+      "eval_steps_per_second": 2.475,
+      "step": 210
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 13.90817928314209,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 2.8467,
+      "step": 220
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.6324076652526855,
+      "eval_runtime": 102.7459,
+      "eval_samples_per_second": 9.733,
+      "eval_steps_per_second": 2.433,
+      "step": 220
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 12.95048999786377,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 2.5137,
+      "step": 230
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.599924087524414,
+      "eval_runtime": 106.8131,
+      "eval_samples_per_second": 9.362,
+      "eval_steps_per_second": 2.341,
+      "step": 230
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 10.900901794433594,
+      "learning_rate": 2.4e-05,
+      "loss": 2.5896,
+      "step": 240
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 2.56974458694458,
+      "eval_runtime": 106.0351,
+      "eval_samples_per_second": 9.431,
+      "eval_steps_per_second": 2.358,
+      "step": 240
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 11.728984832763672,
+      "learning_rate": 2.5e-05,
+      "loss": 3.0882,
+      "step": 250
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 2.5507752895355225,
+      "eval_runtime": 107.1284,
+      "eval_samples_per_second": 9.335,
+      "eval_steps_per_second": 2.334,
+      "step": 250
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 9.277604103088379,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 2.3151,
+      "step": 260
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 2.525682210922241,
+      "eval_runtime": 123.4713,
+      "eval_samples_per_second": 8.099,
+      "eval_steps_per_second": 2.025,
+      "step": 260
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 10.388689041137695,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 2.5188,
+      "step": 270
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 2.499377489089966,
+      "eval_runtime": 127.0825,
+      "eval_samples_per_second": 7.869,
+      "eval_steps_per_second": 1.967,
+      "step": 270
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 7.337620258331299,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 2.4583,
+      "step": 280
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 2.4751341342926025,
+      "eval_runtime": 129.7707,
+      "eval_samples_per_second": 7.706,
+      "eval_steps_per_second": 1.926,
+      "step": 280
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 9.492632865905762,
+      "learning_rate": 2.9e-05,
+      "loss": 2.4552,
+      "step": 290
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 2.449791669845581,
+      "eval_runtime": 127.0769,
+      "eval_samples_per_second": 7.869,
+      "eval_steps_per_second": 1.967,
+      "step": 290
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 12.488316535949707,
+      "learning_rate": 3e-05,
+      "loss": 2.8118,
+      "step": 300
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 2.4329984188079834,
+      "eval_runtime": 125.4816,
+      "eval_samples_per_second": 7.969,
+      "eval_steps_per_second": 1.992,
+      "step": 300
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 10.057647705078125,
+      "learning_rate": 3.1e-05,
+      "loss": 2.5144,
+      "step": 310
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 2.4146034717559814,
+      "eval_runtime": 122.883,
+      "eval_samples_per_second": 8.138,
+      "eval_steps_per_second": 2.034,
+      "step": 310
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 9.721734046936035,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 2.7473,
+      "step": 320
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 2.4046664237976074,
+      "eval_runtime": 113.7917,
+      "eval_samples_per_second": 8.788,
+      "eval_steps_per_second": 2.197,
+      "step": 320
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 4.945127487182617,
+      "learning_rate": 3.3e-05,
+      "loss": 2.46,
+      "step": 330
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 2.380826473236084,
+      "eval_runtime": 111.3358,
+      "eval_samples_per_second": 8.982,
+      "eval_steps_per_second": 2.245,
+      "step": 330
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 12.477653503417969,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 2.6254,
+      "step": 340
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 2.371356964111328,
+      "eval_runtime": 112.2082,
+      "eval_samples_per_second": 8.912,
+      "eval_steps_per_second": 2.228,
+      "step": 340
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 10.182991027832031,
+      "learning_rate": 3.5e-05,
+      "loss": 2.1996,
+      "step": 350
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 2.3486673831939697,
+      "eval_runtime": 107.6972,
+      "eval_samples_per_second": 9.285,
+      "eval_steps_per_second": 2.321,
+      "step": 350
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 10.488390922546387,
+      "learning_rate": 3.6e-05,
+      "loss": 2.6718,
+      "step": 360
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 2.3371098041534424,
+      "eval_runtime": 111.7846,
+      "eval_samples_per_second": 8.946,
+      "eval_steps_per_second": 2.236,
+      "step": 360
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 7.945727825164795,
+      "learning_rate": 3.7e-05,
+      "loss": 2.5803,
+      "step": 370
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 2.3198955059051514,
+      "eval_runtime": 107.6209,
+      "eval_samples_per_second": 9.292,
+      "eval_steps_per_second": 2.323,
+      "step": 370
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 11.906257629394531,
+      "learning_rate": 3.8e-05,
+      "loss": 2.4184,
+      "step": 380
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 2.3155248165130615,
+      "eval_runtime": 108.3746,
+      "eval_samples_per_second": 9.227,
+      "eval_steps_per_second": 2.307,
+      "step": 380
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 11.00644302368164,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 2.2515,
+      "step": 390
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 2.3117854595184326,
+      "eval_runtime": 105.7771,
+      "eval_samples_per_second": 9.454,
+      "eval_steps_per_second": 2.363,
+      "step": 390
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 8.327221870422363,
+      "learning_rate": 4e-05,
+      "loss": 2.4152,
+      "step": 400
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 2.289562940597534,
+      "eval_runtime": 110.3598,
+      "eval_samples_per_second": 9.061,
+      "eval_steps_per_second": 2.265,
+      "step": 400
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 12.397188186645508,
+      "learning_rate": 4.1e-05,
+      "loss": 2.2665,
+      "step": 410
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 2.2749555110931396,
+      "eval_runtime": 105.9973,
+      "eval_samples_per_second": 9.434,
+      "eval_steps_per_second": 2.359,
+      "step": 410
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 11.297379493713379,
+      "learning_rate": 4.2e-05,
+      "loss": 1.6996,
+      "step": 420
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 2.2712552547454834,
+      "eval_runtime": 108.2952,
+      "eval_samples_per_second": 9.234,
+      "eval_steps_per_second": 2.309,
+      "step": 420
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 6.590099811553955,
+      "learning_rate": 4.3e-05,
+      "loss": 2.0371,
+      "step": 430
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 2.2652268409729004,
+      "eval_runtime": 159.4264,
+      "eval_samples_per_second": 6.272,
+      "eval_steps_per_second": 1.568,
+      "step": 430
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 10.717235565185547,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 2.0536,
+      "step": 440
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 2.254389762878418,
+      "eval_runtime": 119.2716,
+      "eval_samples_per_second": 8.384,
+      "eval_steps_per_second": 2.096,
+      "step": 440
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 12.450675964355469,
+      "learning_rate": 4.5e-05,
+      "loss": 2.3436,
+      "step": 450
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 2.241189956665039,
+      "eval_runtime": 101.1513,
+      "eval_samples_per_second": 9.886,
+      "eval_steps_per_second": 2.472,
+      "step": 450
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 10.726924896240234,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 2.2921,
+      "step": 460
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 2.233902931213379,
+      "eval_runtime": 96.5389,
+      "eval_samples_per_second": 10.359,
+      "eval_steps_per_second": 2.59,
+      "step": 460
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 10.492919921875,
+      "learning_rate": 4.7e-05,
+      "loss": 2.0704,
+      "step": 470
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 2.223443031311035,
+      "eval_runtime": 94.3771,
+      "eval_samples_per_second": 10.596,
+      "eval_steps_per_second": 2.649,
+      "step": 470
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 12.142420768737793,
+      "learning_rate": 4.8e-05,
+      "loss": 2.3475,
+      "step": 480
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 2.20881986618042,
+      "eval_runtime": 88.7095,
+      "eval_samples_per_second": 11.273,
+      "eval_steps_per_second": 2.818,
+      "step": 480
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 11.031810760498047,
+      "learning_rate": 4.9e-05,
+      "loss": 2.3123,
+      "step": 490
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 2.193828582763672,
+      "eval_runtime": 90.0998,
+      "eval_samples_per_second": 11.099,
+      "eval_steps_per_second": 2.775,
+      "step": 490
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 8.5560884475708,
+      "learning_rate": 5e-05,
+      "loss": 2.4333,
+      "step": 500
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 2.1911978721618652,
+      "eval_runtime": 93.2158,
+      "eval_samples_per_second": 10.728,
+      "eval_steps_per_second": 2.682,
+      "step": 500
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 9.033146858215332,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 1.8733,
+      "step": 510
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 2.1788506507873535,
+      "eval_runtime": 92.6001,
+      "eval_samples_per_second": 10.799,
+      "eval_steps_per_second": 2.7,
+      "step": 510
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 12.906278610229492,
+      "learning_rate": 4.96e-05,
+      "loss": 2.4447,
+      "step": 520
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 2.170750379562378,
+      "eval_runtime": 88.3981,
+      "eval_samples_per_second": 11.312,
+      "eval_steps_per_second": 2.828,
+      "step": 520
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 13.015795707702637,
+      "learning_rate": 4.94e-05,
+      "loss": 1.848,
+      "step": 530
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 2.161830186843872,
+      "eval_runtime": 91.5465,
+      "eval_samples_per_second": 10.923,
+      "eval_steps_per_second": 2.731,
+      "step": 530
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 12.636075019836426,
+      "learning_rate": 4.92e-05,
+      "loss": 2.2895,
+      "step": 540
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 2.1537909507751465,
+      "eval_runtime": 86.8374,
+      "eval_samples_per_second": 11.516,
+      "eval_steps_per_second": 2.879,
+      "step": 540
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 7.789541244506836,
+      "learning_rate": 4.9e-05,
+      "loss": 1.8584,
+      "step": 550
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 2.148059129714966,
+      "eval_runtime": 89.2466,
+      "eval_samples_per_second": 11.205,
+      "eval_steps_per_second": 2.801,
+      "step": 550
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 10.41247844696045,
+      "learning_rate": 4.88e-05,
+      "loss": 2.2246,
+      "step": 560
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 2.1307997703552246,
+      "eval_runtime": 88.7743,
+      "eval_samples_per_second": 11.265,
+      "eval_steps_per_second": 2.816,
+      "step": 560
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 8.509031295776367,
+      "learning_rate": 4.86e-05,
+      "loss": 2.1681,
+      "step": 570
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 2.117568016052246,
+      "eval_runtime": 90.3366,
+      "eval_samples_per_second": 11.07,
+      "eval_steps_per_second": 2.767,
+      "step": 570
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 5.50130558013916,
+      "learning_rate": 4.8400000000000004e-05,
+      "loss": 1.9694,
+      "step": 580
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 2.111440896987915,
+      "eval_runtime": 92.8312,
+      "eval_samples_per_second": 10.772,
+      "eval_steps_per_second": 2.693,
+      "step": 580
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 10.277608871459961,
+      "learning_rate": 4.82e-05,
+      "loss": 2.3159,
+      "step": 590
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 2.1107966899871826,
+      "eval_runtime": 91.0566,
+      "eval_samples_per_second": 10.982,
+      "eval_steps_per_second": 2.746,
+      "step": 590
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 10.415202140808105,
+      "learning_rate": 4.8e-05,
+      "loss": 2.0298,
+      "step": 600
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 2.1007392406463623,
+      "eval_runtime": 90.2452,
+      "eval_samples_per_second": 11.081,
+      "eval_steps_per_second": 2.77,
+      "step": 600
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 9.051558494567871,
+      "learning_rate": 4.78e-05,
+      "loss": 2.1856,
+      "step": 610
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 2.0893638134002686,
+      "eval_runtime": 97.6967,
+      "eval_samples_per_second": 10.236,
+      "eval_steps_per_second": 2.559,
+      "step": 610
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 6.953254222869873,
+      "learning_rate": 4.76e-05,
+      "loss": 1.8901,
+      "step": 620
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 2.0824646949768066,
+      "eval_runtime": 91.0278,
+      "eval_samples_per_second": 10.986,
+      "eval_steps_per_second": 2.746,
+      "step": 620
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 7.948352813720703,
+      "learning_rate": 4.74e-05,
+      "loss": 2.3327,
+      "step": 630
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 2.074693441390991,
+      "eval_runtime": 101.8312,
+      "eval_samples_per_second": 9.82,
+      "eval_steps_per_second": 2.455,
+      "step": 630
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 9.384662628173828,
+      "learning_rate": 4.72e-05,
+      "loss": 2.3253,
+      "step": 640
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 2.067964792251587,
+      "eval_runtime": 93.9189,
+      "eval_samples_per_second": 10.647,
+      "eval_steps_per_second": 2.662,
+      "step": 640
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 6.1795759201049805,
+      "learning_rate": 4.7e-05,
+      "loss": 2.189,
+      "step": 650
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 2.0557608604431152,
+      "eval_runtime": 97.6001,
+      "eval_samples_per_second": 10.246,
+      "eval_steps_per_second": 2.561,
+      "step": 650
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 9.642065048217773,
+      "learning_rate": 4.6800000000000006e-05,
+      "loss": 2.146,
+      "step": 660
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 2.0541083812713623,
+      "eval_runtime": 98.8714,
+      "eval_samples_per_second": 10.114,
+      "eval_steps_per_second": 2.529,
+      "step": 660
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 6.987886428833008,
+      "learning_rate": 4.660000000000001e-05,
+      "loss": 1.8356,
+      "step": 670
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 2.053222417831421,
+      "eval_runtime": 90.3869,
+      "eval_samples_per_second": 11.064,
+      "eval_steps_per_second": 2.766,
+      "step": 670
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 10.291470527648926,
+      "learning_rate": 4.64e-05,
+      "loss": 2.3633,
+      "step": 680
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 2.0410830974578857,
+      "eval_runtime": 92.923,
+      "eval_samples_per_second": 10.762,
+      "eval_steps_per_second": 2.69,
+      "step": 680
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 8.183449745178223,
+      "learning_rate": 4.6200000000000005e-05,
+      "loss": 2.1429,
+      "step": 690
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 2.035935640335083,
+      "eval_runtime": 106.6596,
+      "eval_samples_per_second": 9.376,
+      "eval_steps_per_second": 2.344,
+      "step": 690
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 7.329190254211426,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 2.2302,
+      "step": 700
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 2.033024311065674,
+      "eval_runtime": 100.5784,
+      "eval_samples_per_second": 9.942,
+      "eval_steps_per_second": 2.486,
+      "step": 700
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 9.20626163482666,
+      "learning_rate": 4.58e-05,
+      "loss": 2.0641,
+      "step": 710
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 2.025780439376831,
+      "eval_runtime": 112.3754,
+      "eval_samples_per_second": 8.899,
+      "eval_steps_per_second": 2.225,
+      "step": 710
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 11.579280853271484,
+      "learning_rate": 4.5600000000000004e-05,
+      "loss": 2.0106,
+      "step": 720
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 2.023242950439453,
+      "eval_runtime": 100.8727,
+      "eval_samples_per_second": 9.913,
+      "eval_steps_per_second": 2.478,
+      "step": 720
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 9.62726879119873,
+      "learning_rate": 4.5400000000000006e-05,
+      "loss": 2.1251,
+      "step": 730
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 2.019562244415283,
+      "eval_runtime": 98.6758,
+      "eval_samples_per_second": 10.134,
+      "eval_steps_per_second": 2.534,
+      "step": 730
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 8.502236366271973,
+      "learning_rate": 4.52e-05,
+      "loss": 2.1068,
+      "step": 740
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 2.0147552490234375,
+      "eval_runtime": 101.3373,
+      "eval_samples_per_second": 9.868,
+      "eval_steps_per_second": 2.467,
+      "step": 740
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 8.522944450378418,
+      "learning_rate": 4.5e-05,
+      "loss": 2.3803,
+      "step": 750
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 2.0065298080444336,
+      "eval_runtime": 115.4706,
+      "eval_samples_per_second": 8.66,
+      "eval_steps_per_second": 2.165,
+      "step": 750
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 9.323762893676758,
+      "learning_rate": 4.4800000000000005e-05,
+      "loss": 2.2126,
+      "step": 760
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 2.000988006591797,
+      "eval_runtime": 131.4565,
+      "eval_samples_per_second": 7.607,
+      "eval_steps_per_second": 1.902,
+      "step": 760
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 7.243586540222168,
+      "learning_rate": 4.46e-05,
+      "loss": 2.2732,
+      "step": 770
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.9990744590759277,
+      "eval_runtime": 117.2201,
+      "eval_samples_per_second": 8.531,
+      "eval_steps_per_second": 2.133,
+      "step": 770
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 10.664429664611816,
+      "learning_rate": 4.44e-05,
+      "loss": 2.2521,
+      "step": 780
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 1.988065242767334,
+      "eval_runtime": 105.5882,
+      "eval_samples_per_second": 9.471,
+      "eval_steps_per_second": 2.368,
+      "step": 780
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 9.04030704498291,
+      "learning_rate": 4.4200000000000004e-05,
+      "loss": 1.9933,
+      "step": 790
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 1.9845080375671387,
+      "eval_runtime": 101.4877,
+      "eval_samples_per_second": 9.853,
+      "eval_steps_per_second": 2.463,
+      "step": 790
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 9.38503646850586,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 1.9956,
+      "step": 800
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.9831095933914185,
+      "eval_runtime": 148.7473,
+      "eval_samples_per_second": 6.723,
+      "eval_steps_per_second": 1.681,
+      "step": 800
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 6.387115955352783,
+      "learning_rate": 4.38e-05,
+      "loss": 2.0059,
+      "step": 810
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 1.976269006729126,
+      "eval_runtime": 129.9491,
+      "eval_samples_per_second": 7.695,
+      "eval_steps_per_second": 1.924,
+      "step": 810
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 8.890172004699707,
+      "learning_rate": 4.36e-05,
+      "loss": 2.2373,
+      "step": 820
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 1.974748969078064,
+      "eval_runtime": 164.1513,
+      "eval_samples_per_second": 6.092,
+      "eval_steps_per_second": 1.523,
+      "step": 820
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 10.762927055358887,
+      "learning_rate": 4.3400000000000005e-05,
+      "loss": 2.186,
+      "step": 830
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 1.9657306671142578,
+      "eval_runtime": 142.9199,
+      "eval_samples_per_second": 6.997,
+      "eval_steps_per_second": 1.749,
+      "step": 830
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 9.816293716430664,
+      "learning_rate": 4.32e-05,
+      "loss": 1.6506,
+      "step": 840
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 1.9642084836959839,
+      "eval_runtime": 173.606,
+      "eval_samples_per_second": 5.76,
+      "eval_steps_per_second": 1.44,
+      "step": 840
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 7.931281089782715,
+      "learning_rate": 4.3e-05,
+      "loss": 1.7588,
+      "step": 850
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 1.9623171091079712,
+      "eval_runtime": 158.121,
+      "eval_samples_per_second": 6.324,
+      "eval_steps_per_second": 1.581,
+      "step": 850
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 8.325611114501953,
+      "learning_rate": 4.2800000000000004e-05,
+      "loss": 1.8801,
+      "step": 860
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 1.9604990482330322,
+      "eval_runtime": 156.6306,
+      "eval_samples_per_second": 6.384,
+      "eval_steps_per_second": 1.596,
+      "step": 860
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 8.10270881652832,
+      "learning_rate": 4.26e-05,
+      "loss": 1.8894,
+      "step": 870
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 1.9559086561203003,
+      "eval_runtime": 165.5477,
+      "eval_samples_per_second": 6.041,
+      "eval_steps_per_second": 1.51,
+      "step": 870
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 8.666308403015137,
+      "learning_rate": 4.24e-05,
+      "loss": 2.1945,
+      "step": 880
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 1.953808307647705,
+      "eval_runtime": 155.1083,
+      "eval_samples_per_second": 6.447,
+      "eval_steps_per_second": 1.612,
+      "step": 880
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 7.216370105743408,
+      "learning_rate": 4.22e-05,
+      "loss": 2.1958,
+      "step": 890
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 1.9536200761795044,
+      "eval_runtime": 153.3145,
+      "eval_samples_per_second": 6.523,
+      "eval_steps_per_second": 1.631,
+      "step": 890
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 7.325380802154541,
+      "learning_rate": 4.2e-05,
+      "loss": 1.8137,
+      "step": 900
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 1.9444538354873657,
+      "eval_runtime": 157.7008,
+      "eval_samples_per_second": 6.341,
+      "eval_steps_per_second": 1.585,
+      "step": 900
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 6.625280857086182,
+      "learning_rate": 4.18e-05,
+      "loss": 1.8925,
+      "step": 910
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 1.9409335851669312,
+      "eval_runtime": 149.5155,
+      "eval_samples_per_second": 6.688,
+      "eval_steps_per_second": 1.672,
+      "step": 910
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 5.897461414337158,
+      "learning_rate": 4.16e-05,
+      "loss": 1.8322,
+      "step": 920
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 1.9331930875778198,
+      "eval_runtime": 127.1983,
+      "eval_samples_per_second": 7.862,
+      "eval_steps_per_second": 1.965,
+      "step": 920
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 9.08010482788086,
+      "learning_rate": 4.14e-05,
+      "loss": 2.042,
+      "step": 930
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 1.9316186904907227,
+      "eval_runtime": 118.4354,
+      "eval_samples_per_second": 8.443,
+      "eval_steps_per_second": 2.111,
+      "step": 930
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 9.264948844909668,
+      "learning_rate": 4.12e-05,
+      "loss": 1.7826,
+      "step": 940
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 1.9262688159942627,
+      "eval_runtime": 113.7982,
+      "eval_samples_per_second": 8.787,
+      "eval_steps_per_second": 2.197,
+      "step": 940
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 10.431904792785645,
+      "learning_rate": 4.1e-05,
+      "loss": 1.7883,
+      "step": 950
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 1.9221816062927246,
+      "eval_runtime": 107.3673,
+      "eval_samples_per_second": 9.314,
+      "eval_steps_per_second": 2.328,
+      "step": 950
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 5.923398017883301,
+      "learning_rate": 4.08e-05,
+      "loss": 1.5646,
+      "step": 960
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 1.9227478504180908,
+      "eval_runtime": 121.0769,
+      "eval_samples_per_second": 8.259,
+      "eval_steps_per_second": 2.065,
+      "step": 960
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 8.440842628479004,
+      "learning_rate": 4.0600000000000004e-05,
+      "loss": 1.6706,
+      "step": 970
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 1.9174282550811768,
+      "eval_runtime": 121.92,
+      "eval_samples_per_second": 8.202,
+      "eval_steps_per_second": 2.051,
+      "step": 970
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 6.066262245178223,
+      "learning_rate": 4.0400000000000006e-05,
+      "loss": 1.6543,
+      "step": 980
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 1.915424108505249,
+      "eval_runtime": 111.8461,
+      "eval_samples_per_second": 8.941,
+      "eval_steps_per_second": 2.235,
+      "step": 980
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 7.314166069030762,
+      "learning_rate": 4.02e-05,
+      "loss": 2.1565,
+      "step": 990
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 1.9187248945236206,
+      "eval_runtime": 110.4362,
+      "eval_samples_per_second": 9.055,
+      "eval_steps_per_second": 2.264,
+      "step": 990
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.6229448318481445,
+      "learning_rate": 4e-05,
+      "loss": 1.7919,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.9095934629440308,
+      "eval_runtime": 103.6218,
+      "eval_samples_per_second": 9.65,
+      "eval_steps_per_second": 2.413,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 3000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 261292032000000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

fine_tuned_gpt2/checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "/Users/user/projects/MindPadiBig/mindpadi/models/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

fine_tuned_gpt2/checkpoint-1500/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}

fine_tuned_gpt2/checkpoint-1500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2283 @@

+{
+  "best_metric": 1.803325891494751,
+  "best_model_checkpoint": "/Users/user/projects/MindPadiBig/mindpadi/models/fine_tuned_gpt2/checkpoint-1500",
+  "epoch": 1.5,
+  "eval_steps": 10,
+  "global_step": 1500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 126.21493530273438,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 6.9352,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 6.456012725830078,
+      "eval_runtime": 128.7117,
+      "eval_samples_per_second": 7.769,
+      "eval_steps_per_second": 1.942,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 112.57171630859375,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 6.2877,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 6.174145698547363,
+      "eval_runtime": 133.4573,
+      "eval_samples_per_second": 7.493,
+      "eval_steps_per_second": 1.873,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 185.73190307617188,
+      "learning_rate": 3e-06,
+      "loss": 5.9569,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 5.594101428985596,
+      "eval_runtime": 136.3272,
+      "eval_samples_per_second": 7.335,
+      "eval_steps_per_second": 1.834,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 160.77322387695312,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 4.9783,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 4.95811128616333,
+      "eval_runtime": 123.0408,
+      "eval_samples_per_second": 8.127,
+      "eval_steps_per_second": 2.032,
+      "step": 40
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 71.51310729980469,
+      "learning_rate": 5e-06,
+      "loss": 4.3123,
+      "step": 50
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 4.30466890335083,
+      "eval_runtime": 117.1478,
+      "eval_samples_per_second": 8.536,
+      "eval_steps_per_second": 2.134,
+      "step": 50
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 55.53121566772461,
+      "learning_rate": 6e-06,
+      "loss": 3.7047,
+      "step": 60
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 3.8378841876983643,
+      "eval_runtime": 109.8285,
+      "eval_samples_per_second": 9.105,
+      "eval_steps_per_second": 2.276,
+      "step": 60
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 16.639528274536133,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 4.1835,
+      "step": 70
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 3.6265947818756104,
+      "eval_runtime": 107.5258,
+      "eval_samples_per_second": 9.3,
+      "eval_steps_per_second": 2.325,
+      "step": 70
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 11.000739097595215,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 3.0598,
+      "step": 80
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 3.5009496212005615,
+      "eval_runtime": 105.6005,
+      "eval_samples_per_second": 9.47,
+      "eval_steps_per_second": 2.367,
+      "step": 80
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 18.876184463500977,
+      "learning_rate": 9e-06,
+      "loss": 3.0835,
+      "step": 90
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 3.402592182159424,
+      "eval_runtime": 106.8507,
+      "eval_samples_per_second": 9.359,
+      "eval_steps_per_second": 2.34,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 10.568647384643555,
+      "learning_rate": 1e-05,
+      "loss": 3.5607,
+      "step": 100
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 3.3077728748321533,
+      "eval_runtime": 107.8277,
+      "eval_samples_per_second": 9.274,
+      "eval_steps_per_second": 2.319,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 6.663860321044922,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 3.3173,
+      "step": 110
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 3.221048355102539,
+      "eval_runtime": 104.8207,
+      "eval_samples_per_second": 9.54,
+      "eval_steps_per_second": 2.385,
+      "step": 110
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 9.180710792541504,
+      "learning_rate": 1.2e-05,
+      "loss": 3.4318,
+      "step": 120
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 3.1418848037719727,
+      "eval_runtime": 104.9529,
+      "eval_samples_per_second": 9.528,
+      "eval_steps_per_second": 2.382,
+      "step": 120
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 7.3332414627075195,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 3.1961,
+      "step": 130
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 3.069470167160034,
+      "eval_runtime": 107.1455,
+      "eval_samples_per_second": 9.333,
+      "eval_steps_per_second": 2.333,
+      "step": 130
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 11.190179824829102,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 2.821,
+      "step": 140
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.998840093612671,
+      "eval_runtime": 109.7303,
+      "eval_samples_per_second": 9.113,
+      "eval_steps_per_second": 2.278,
+      "step": 140
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 10.532099723815918,
+      "learning_rate": 1.5e-05,
+      "loss": 2.8245,
+      "step": 150
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.927992820739746,
+      "eval_runtime": 112.3035,
+      "eval_samples_per_second": 8.904,
+      "eval_steps_per_second": 2.226,
+      "step": 150
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 9.649062156677246,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 2.9165,
+      "step": 160
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.8786165714263916,
+      "eval_runtime": 128.1716,
+      "eval_samples_per_second": 7.802,
+      "eval_steps_per_second": 1.951,
+      "step": 160
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 9.107309341430664,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 3.1418,
+      "step": 170
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.8244595527648926,
+      "eval_runtime": 125.0759,
+      "eval_samples_per_second": 7.995,
+      "eval_steps_per_second": 1.999,
+      "step": 170
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 13.698325157165527,
+      "learning_rate": 1.8e-05,
+      "loss": 3.0323,
+      "step": 180
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.772019386291504,
+      "eval_runtime": 129.6329,
+      "eval_samples_per_second": 7.714,
+      "eval_steps_per_second": 1.929,
+      "step": 180
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 11.200780868530273,
+      "learning_rate": 1.9e-05,
+      "loss": 2.9199,
+      "step": 190
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.7285261154174805,
+      "eval_runtime": 105.2039,
+      "eval_samples_per_second": 9.505,
+      "eval_steps_per_second": 2.376,
+      "step": 190
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 11.479965209960938,
+      "learning_rate": 2e-05,
+      "loss": 2.6733,
+      "step": 200
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.695300340652466,
+      "eval_runtime": 102.9704,
+      "eval_samples_per_second": 9.712,
+      "eval_steps_per_second": 2.428,
+      "step": 200
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 11.359460830688477,
+      "learning_rate": 2.1e-05,
+      "loss": 2.8493,
+      "step": 210
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.66671085357666,
+      "eval_runtime": 101.0064,
+      "eval_samples_per_second": 9.9,
+      "eval_steps_per_second": 2.475,
+      "step": 210
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 13.90817928314209,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 2.8467,
+      "step": 220
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.6324076652526855,
+      "eval_runtime": 102.7459,
+      "eval_samples_per_second": 9.733,
+      "eval_steps_per_second": 2.433,
+      "step": 220
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 12.95048999786377,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 2.5137,
+      "step": 230
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.599924087524414,
+      "eval_runtime": 106.8131,
+      "eval_samples_per_second": 9.362,
+      "eval_steps_per_second": 2.341,
+      "step": 230
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 10.900901794433594,
+      "learning_rate": 2.4e-05,
+      "loss": 2.5896,
+      "step": 240
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 2.56974458694458,
+      "eval_runtime": 106.0351,
+      "eval_samples_per_second": 9.431,
+      "eval_steps_per_second": 2.358,
+      "step": 240
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 11.728984832763672,
+      "learning_rate": 2.5e-05,
+      "loss": 3.0882,
+      "step": 250
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 2.5507752895355225,
+      "eval_runtime": 107.1284,
+      "eval_samples_per_second": 9.335,
+      "eval_steps_per_second": 2.334,
+      "step": 250
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 9.277604103088379,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 2.3151,
+      "step": 260
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 2.525682210922241,
+      "eval_runtime": 123.4713,
+      "eval_samples_per_second": 8.099,
+      "eval_steps_per_second": 2.025,
+      "step": 260
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 10.388689041137695,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 2.5188,
+      "step": 270
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 2.499377489089966,
+      "eval_runtime": 127.0825,
+      "eval_samples_per_second": 7.869,
+      "eval_steps_per_second": 1.967,
+      "step": 270
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 7.337620258331299,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 2.4583,
+      "step": 280
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 2.4751341342926025,
+      "eval_runtime": 129.7707,
+      "eval_samples_per_second": 7.706,
+      "eval_steps_per_second": 1.926,
+      "step": 280
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 9.492632865905762,
+      "learning_rate": 2.9e-05,
+      "loss": 2.4552,
+      "step": 290
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 2.449791669845581,
+      "eval_runtime": 127.0769,
+      "eval_samples_per_second": 7.869,
+      "eval_steps_per_second": 1.967,
+      "step": 290
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 12.488316535949707,
+      "learning_rate": 3e-05,
+      "loss": 2.8118,
+      "step": 300
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 2.4329984188079834,
+      "eval_runtime": 125.4816,
+      "eval_samples_per_second": 7.969,
+      "eval_steps_per_second": 1.992,
+      "step": 300
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 10.057647705078125,
+      "learning_rate": 3.1e-05,
+      "loss": 2.5144,
+      "step": 310
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 2.4146034717559814,
+      "eval_runtime": 122.883,
+      "eval_samples_per_second": 8.138,
+      "eval_steps_per_second": 2.034,
+      "step": 310
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 9.721734046936035,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 2.7473,
+      "step": 320
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 2.4046664237976074,
+      "eval_runtime": 113.7917,
+      "eval_samples_per_second": 8.788,
+      "eval_steps_per_second": 2.197,
+      "step": 320
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 4.945127487182617,
+      "learning_rate": 3.3e-05,
+      "loss": 2.46,
+      "step": 330
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 2.380826473236084,
+      "eval_runtime": 111.3358,
+      "eval_samples_per_second": 8.982,
+      "eval_steps_per_second": 2.245,
+      "step": 330
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 12.477653503417969,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 2.6254,
+      "step": 340
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 2.371356964111328,
+      "eval_runtime": 112.2082,
+      "eval_samples_per_second": 8.912,
+      "eval_steps_per_second": 2.228,
+      "step": 340
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 10.182991027832031,
+      "learning_rate": 3.5e-05,
+      "loss": 2.1996,
+      "step": 350
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 2.3486673831939697,
+      "eval_runtime": 107.6972,
+      "eval_samples_per_second": 9.285,
+      "eval_steps_per_second": 2.321,
+      "step": 350
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 10.488390922546387,
+      "learning_rate": 3.6e-05,
+      "loss": 2.6718,
+      "step": 360
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 2.3371098041534424,
+      "eval_runtime": 111.7846,
+      "eval_samples_per_second": 8.946,
+      "eval_steps_per_second": 2.236,
+      "step": 360
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 7.945727825164795,
+      "learning_rate": 3.7e-05,
+      "loss": 2.5803,
+      "step": 370
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 2.3198955059051514,
+      "eval_runtime": 107.6209,
+      "eval_samples_per_second": 9.292,
+      "eval_steps_per_second": 2.323,
+      "step": 370
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 11.906257629394531,
+      "learning_rate": 3.8e-05,
+      "loss": 2.4184,
+      "step": 380
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 2.3155248165130615,
+      "eval_runtime": 108.3746,
+      "eval_samples_per_second": 9.227,
+      "eval_steps_per_second": 2.307,
+      "step": 380
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 11.00644302368164,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 2.2515,
+      "step": 390
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 2.3117854595184326,
+      "eval_runtime": 105.7771,
+      "eval_samples_per_second": 9.454,
+      "eval_steps_per_second": 2.363,
+      "step": 390
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 8.327221870422363,
+      "learning_rate": 4e-05,
+      "loss": 2.4152,
+      "step": 400
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 2.289562940597534,
+      "eval_runtime": 110.3598,
+      "eval_samples_per_second": 9.061,
+      "eval_steps_per_second": 2.265,
+      "step": 400
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 12.397188186645508,
+      "learning_rate": 4.1e-05,
+      "loss": 2.2665,
+      "step": 410
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 2.2749555110931396,
+      "eval_runtime": 105.9973,
+      "eval_samples_per_second": 9.434,
+      "eval_steps_per_second": 2.359,
+      "step": 410
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 11.297379493713379,
+      "learning_rate": 4.2e-05,
+      "loss": 1.6996,
+      "step": 420
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 2.2712552547454834,
+      "eval_runtime": 108.2952,
+      "eval_samples_per_second": 9.234,
+      "eval_steps_per_second": 2.309,
+      "step": 420
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 6.590099811553955,
+      "learning_rate": 4.3e-05,
+      "loss": 2.0371,
+      "step": 430
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 2.2652268409729004,
+      "eval_runtime": 159.4264,
+      "eval_samples_per_second": 6.272,
+      "eval_steps_per_second": 1.568,
+      "step": 430
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 10.717235565185547,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 2.0536,
+      "step": 440
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 2.254389762878418,
+      "eval_runtime": 119.2716,
+      "eval_samples_per_second": 8.384,
+      "eval_steps_per_second": 2.096,
+      "step": 440
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 12.450675964355469,
+      "learning_rate": 4.5e-05,
+      "loss": 2.3436,
+      "step": 450
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 2.241189956665039,
+      "eval_runtime": 101.1513,
+      "eval_samples_per_second": 9.886,
+      "eval_steps_per_second": 2.472,
+      "step": 450
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 10.726924896240234,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 2.2921,
+      "step": 460
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 2.233902931213379,
+      "eval_runtime": 96.5389,
+      "eval_samples_per_second": 10.359,
+      "eval_steps_per_second": 2.59,
+      "step": 460
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 10.492919921875,
+      "learning_rate": 4.7e-05,
+      "loss": 2.0704,
+      "step": 470
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 2.223443031311035,
+      "eval_runtime": 94.3771,
+      "eval_samples_per_second": 10.596,
+      "eval_steps_per_second": 2.649,
+      "step": 470
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 12.142420768737793,
+      "learning_rate": 4.8e-05,
+      "loss": 2.3475,
+      "step": 480
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 2.20881986618042,
+      "eval_runtime": 88.7095,
+      "eval_samples_per_second": 11.273,
+      "eval_steps_per_second": 2.818,
+      "step": 480
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 11.031810760498047,
+      "learning_rate": 4.9e-05,
+      "loss": 2.3123,
+      "step": 490
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 2.193828582763672,
+      "eval_runtime": 90.0998,
+      "eval_samples_per_second": 11.099,
+      "eval_steps_per_second": 2.775,
+      "step": 490
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 8.5560884475708,
+      "learning_rate": 5e-05,
+      "loss": 2.4333,
+      "step": 500
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 2.1911978721618652,
+      "eval_runtime": 93.2158,
+      "eval_samples_per_second": 10.728,
+      "eval_steps_per_second": 2.682,
+      "step": 500
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 9.033146858215332,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 1.8733,
+      "step": 510
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 2.1788506507873535,
+      "eval_runtime": 92.6001,
+      "eval_samples_per_second": 10.799,
+      "eval_steps_per_second": 2.7,
+      "step": 510
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 12.906278610229492,
+      "learning_rate": 4.96e-05,
+      "loss": 2.4447,
+      "step": 520
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 2.170750379562378,
+      "eval_runtime": 88.3981,
+      "eval_samples_per_second": 11.312,
+      "eval_steps_per_second": 2.828,
+      "step": 520
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 13.015795707702637,
+      "learning_rate": 4.94e-05,
+      "loss": 1.848,
+      "step": 530
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 2.161830186843872,
+      "eval_runtime": 91.5465,
+      "eval_samples_per_second": 10.923,
+      "eval_steps_per_second": 2.731,
+      "step": 530
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 12.636075019836426,
+      "learning_rate": 4.92e-05,
+      "loss": 2.2895,
+      "step": 540
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 2.1537909507751465,
+      "eval_runtime": 86.8374,
+      "eval_samples_per_second": 11.516,
+      "eval_steps_per_second": 2.879,
+      "step": 540
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 7.789541244506836,
+      "learning_rate": 4.9e-05,
+      "loss": 1.8584,
+      "step": 550
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 2.148059129714966,
+      "eval_runtime": 89.2466,
+      "eval_samples_per_second": 11.205,
+      "eval_steps_per_second": 2.801,
+      "step": 550
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 10.41247844696045,
+      "learning_rate": 4.88e-05,
+      "loss": 2.2246,
+      "step": 560
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 2.1307997703552246,
+      "eval_runtime": 88.7743,
+      "eval_samples_per_second": 11.265,
+      "eval_steps_per_second": 2.816,
+      "step": 560
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 8.509031295776367,
+      "learning_rate": 4.86e-05,
+      "loss": 2.1681,
+      "step": 570
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 2.117568016052246,
+      "eval_runtime": 90.3366,
+      "eval_samples_per_second": 11.07,
+      "eval_steps_per_second": 2.767,
+      "step": 570
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 5.50130558013916,
+      "learning_rate": 4.8400000000000004e-05,
+      "loss": 1.9694,
+      "step": 580
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 2.111440896987915,
+      "eval_runtime": 92.8312,
+      "eval_samples_per_second": 10.772,
+      "eval_steps_per_second": 2.693,
+      "step": 580
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 10.277608871459961,
+      "learning_rate": 4.82e-05,
+      "loss": 2.3159,
+      "step": 590
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 2.1107966899871826,
+      "eval_runtime": 91.0566,
+      "eval_samples_per_second": 10.982,
+      "eval_steps_per_second": 2.746,
+      "step": 590
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 10.415202140808105,
+      "learning_rate": 4.8e-05,
+      "loss": 2.0298,
+      "step": 600
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 2.1007392406463623,
+      "eval_runtime": 90.2452,
+      "eval_samples_per_second": 11.081,
+      "eval_steps_per_second": 2.77,
+      "step": 600
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 9.051558494567871,
+      "learning_rate": 4.78e-05,
+      "loss": 2.1856,
+      "step": 610
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 2.0893638134002686,
+      "eval_runtime": 97.6967,
+      "eval_samples_per_second": 10.236,
+      "eval_steps_per_second": 2.559,
+      "step": 610
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 6.953254222869873,
+      "learning_rate": 4.76e-05,
+      "loss": 1.8901,
+      "step": 620
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 2.0824646949768066,
+      "eval_runtime": 91.0278,
+      "eval_samples_per_second": 10.986,
+      "eval_steps_per_second": 2.746,
+      "step": 620
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 7.948352813720703,
+      "learning_rate": 4.74e-05,
+      "loss": 2.3327,
+      "step": 630
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 2.074693441390991,
+      "eval_runtime": 101.8312,
+      "eval_samples_per_second": 9.82,
+      "eval_steps_per_second": 2.455,
+      "step": 630
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 9.384662628173828,
+      "learning_rate": 4.72e-05,
+      "loss": 2.3253,
+      "step": 640
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 2.067964792251587,
+      "eval_runtime": 93.9189,
+      "eval_samples_per_second": 10.647,
+      "eval_steps_per_second": 2.662,
+      "step": 640
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 6.1795759201049805,
+      "learning_rate": 4.7e-05,
+      "loss": 2.189,
+      "step": 650
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 2.0557608604431152,
+      "eval_runtime": 97.6001,
+      "eval_samples_per_second": 10.246,
+      "eval_steps_per_second": 2.561,
+      "step": 650
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 9.642065048217773,
+      "learning_rate": 4.6800000000000006e-05,
+      "loss": 2.146,
+      "step": 660
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 2.0541083812713623,
+      "eval_runtime": 98.8714,
+      "eval_samples_per_second": 10.114,
+      "eval_steps_per_second": 2.529,
+      "step": 660
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 6.987886428833008,
+      "learning_rate": 4.660000000000001e-05,
+      "loss": 1.8356,
+      "step": 670
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 2.053222417831421,
+      "eval_runtime": 90.3869,
+      "eval_samples_per_second": 11.064,
+      "eval_steps_per_second": 2.766,
+      "step": 670
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 10.291470527648926,
+      "learning_rate": 4.64e-05,
+      "loss": 2.3633,
+      "step": 680
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 2.0410830974578857,
+      "eval_runtime": 92.923,
+      "eval_samples_per_second": 10.762,
+      "eval_steps_per_second": 2.69,
+      "step": 680
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 8.183449745178223,
+      "learning_rate": 4.6200000000000005e-05,
+      "loss": 2.1429,
+      "step": 690
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 2.035935640335083,
+      "eval_runtime": 106.6596,
+      "eval_samples_per_second": 9.376,
+      "eval_steps_per_second": 2.344,
+      "step": 690
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 7.329190254211426,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 2.2302,
+      "step": 700
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 2.033024311065674,
+      "eval_runtime": 100.5784,
+      "eval_samples_per_second": 9.942,
+      "eval_steps_per_second": 2.486,
+      "step": 700
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 9.20626163482666,
+      "learning_rate": 4.58e-05,
+      "loss": 2.0641,
+      "step": 710
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 2.025780439376831,
+      "eval_runtime": 112.3754,
+      "eval_samples_per_second": 8.899,
+      "eval_steps_per_second": 2.225,
+      "step": 710
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 11.579280853271484,
+      "learning_rate": 4.5600000000000004e-05,
+      "loss": 2.0106,
+      "step": 720
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 2.023242950439453,
+      "eval_runtime": 100.8727,
+      "eval_samples_per_second": 9.913,
+      "eval_steps_per_second": 2.478,
+      "step": 720
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 9.62726879119873,
+      "learning_rate": 4.5400000000000006e-05,
+      "loss": 2.1251,
+      "step": 730
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 2.019562244415283,
+      "eval_runtime": 98.6758,
+      "eval_samples_per_second": 10.134,
+      "eval_steps_per_second": 2.534,
+      "step": 730
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 8.502236366271973,
+      "learning_rate": 4.52e-05,
+      "loss": 2.1068,
+      "step": 740
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 2.0147552490234375,
+      "eval_runtime": 101.3373,
+      "eval_samples_per_second": 9.868,
+      "eval_steps_per_second": 2.467,
+      "step": 740
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 8.522944450378418,
+      "learning_rate": 4.5e-05,
+      "loss": 2.3803,
+      "step": 750
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 2.0065298080444336,
+      "eval_runtime": 115.4706,
+      "eval_samples_per_second": 8.66,
+      "eval_steps_per_second": 2.165,
+      "step": 750
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 9.323762893676758,
+      "learning_rate": 4.4800000000000005e-05,
+      "loss": 2.2126,
+      "step": 760
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 2.000988006591797,
+      "eval_runtime": 131.4565,
+      "eval_samples_per_second": 7.607,
+      "eval_steps_per_second": 1.902,
+      "step": 760
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 7.243586540222168,
+      "learning_rate": 4.46e-05,
+      "loss": 2.2732,
+      "step": 770
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.9990744590759277,
+      "eval_runtime": 117.2201,
+      "eval_samples_per_second": 8.531,
+      "eval_steps_per_second": 2.133,
+      "step": 770
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 10.664429664611816,
+      "learning_rate": 4.44e-05,
+      "loss": 2.2521,
+      "step": 780
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 1.988065242767334,
+      "eval_runtime": 105.5882,
+      "eval_samples_per_second": 9.471,
+      "eval_steps_per_second": 2.368,
+      "step": 780
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 9.04030704498291,
+      "learning_rate": 4.4200000000000004e-05,
+      "loss": 1.9933,
+      "step": 790
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 1.9845080375671387,
+      "eval_runtime": 101.4877,
+      "eval_samples_per_second": 9.853,
+      "eval_steps_per_second": 2.463,
+      "step": 790
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 9.38503646850586,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 1.9956,
+      "step": 800
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.9831095933914185,
+      "eval_runtime": 148.7473,
+      "eval_samples_per_second": 6.723,
+      "eval_steps_per_second": 1.681,
+      "step": 800
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 6.387115955352783,
+      "learning_rate": 4.38e-05,
+      "loss": 2.0059,
+      "step": 810
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 1.976269006729126,
+      "eval_runtime": 129.9491,
+      "eval_samples_per_second": 7.695,
+      "eval_steps_per_second": 1.924,
+      "step": 810
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 8.890172004699707,
+      "learning_rate": 4.36e-05,
+      "loss": 2.2373,
+      "step": 820
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 1.974748969078064,
+      "eval_runtime": 164.1513,
+      "eval_samples_per_second": 6.092,
+      "eval_steps_per_second": 1.523,
+      "step": 820
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 10.762927055358887,
+      "learning_rate": 4.3400000000000005e-05,
+      "loss": 2.186,
+      "step": 830
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 1.9657306671142578,
+      "eval_runtime": 142.9199,
+      "eval_samples_per_second": 6.997,
+      "eval_steps_per_second": 1.749,
+      "step": 830
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 9.816293716430664,
+      "learning_rate": 4.32e-05,
+      "loss": 1.6506,
+      "step": 840
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 1.9642084836959839,
+      "eval_runtime": 173.606,
+      "eval_samples_per_second": 5.76,
+      "eval_steps_per_second": 1.44,
+      "step": 840
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 7.931281089782715,
+      "learning_rate": 4.3e-05,
+      "loss": 1.7588,
+      "step": 850
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 1.9623171091079712,
+      "eval_runtime": 158.121,
+      "eval_samples_per_second": 6.324,
+      "eval_steps_per_second": 1.581,
+      "step": 850
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 8.325611114501953,
+      "learning_rate": 4.2800000000000004e-05,
+      "loss": 1.8801,
+      "step": 860
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 1.9604990482330322,
+      "eval_runtime": 156.6306,
+      "eval_samples_per_second": 6.384,
+      "eval_steps_per_second": 1.596,
+      "step": 860
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 8.10270881652832,
+      "learning_rate": 4.26e-05,
+      "loss": 1.8894,
+      "step": 870
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 1.9559086561203003,
+      "eval_runtime": 165.5477,
+      "eval_samples_per_second": 6.041,
+      "eval_steps_per_second": 1.51,
+      "step": 870
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 8.666308403015137,
+      "learning_rate": 4.24e-05,
+      "loss": 2.1945,
+      "step": 880
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 1.953808307647705,
+      "eval_runtime": 155.1083,
+      "eval_samples_per_second": 6.447,
+      "eval_steps_per_second": 1.612,
+      "step": 880
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 7.216370105743408,
+      "learning_rate": 4.22e-05,
+      "loss": 2.1958,
+      "step": 890
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 1.9536200761795044,
+      "eval_runtime": 153.3145,
+      "eval_samples_per_second": 6.523,
+      "eval_steps_per_second": 1.631,
+      "step": 890
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 7.325380802154541,
+      "learning_rate": 4.2e-05,
+      "loss": 1.8137,
+      "step": 900
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 1.9444538354873657,
+      "eval_runtime": 157.7008,
+      "eval_samples_per_second": 6.341,
+      "eval_steps_per_second": 1.585,
+      "step": 900
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 6.625280857086182,
+      "learning_rate": 4.18e-05,
+      "loss": 1.8925,
+      "step": 910
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 1.9409335851669312,
+      "eval_runtime": 149.5155,
+      "eval_samples_per_second": 6.688,
+      "eval_steps_per_second": 1.672,
+      "step": 910
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 5.897461414337158,
+      "learning_rate": 4.16e-05,
+      "loss": 1.8322,
+      "step": 920
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 1.9331930875778198,
+      "eval_runtime": 127.1983,
+      "eval_samples_per_second": 7.862,
+      "eval_steps_per_second": 1.965,
+      "step": 920
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 9.08010482788086,
+      "learning_rate": 4.14e-05,
+      "loss": 2.042,
+      "step": 930
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 1.9316186904907227,
+      "eval_runtime": 118.4354,
+      "eval_samples_per_second": 8.443,
+      "eval_steps_per_second": 2.111,
+      "step": 930
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 9.264948844909668,
+      "learning_rate": 4.12e-05,
+      "loss": 1.7826,
+      "step": 940
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 1.9262688159942627,
+      "eval_runtime": 113.7982,
+      "eval_samples_per_second": 8.787,
+      "eval_steps_per_second": 2.197,
+      "step": 940
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 10.431904792785645,
+      "learning_rate": 4.1e-05,
+      "loss": 1.7883,
+      "step": 950
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 1.9221816062927246,
+      "eval_runtime": 107.3673,
+      "eval_samples_per_second": 9.314,
+      "eval_steps_per_second": 2.328,
+      "step": 950
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 5.923398017883301,
+      "learning_rate": 4.08e-05,
+      "loss": 1.5646,
+      "step": 960
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 1.9227478504180908,
+      "eval_runtime": 121.0769,
+      "eval_samples_per_second": 8.259,
+      "eval_steps_per_second": 2.065,
+      "step": 960
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 8.440842628479004,
+      "learning_rate": 4.0600000000000004e-05,
+      "loss": 1.6706,
+      "step": 970
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 1.9174282550811768,
+      "eval_runtime": 121.92,
+      "eval_samples_per_second": 8.202,
+      "eval_steps_per_second": 2.051,
+      "step": 970
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 6.066262245178223,
+      "learning_rate": 4.0400000000000006e-05,
+      "loss": 1.6543,
+      "step": 980
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 1.915424108505249,
+      "eval_runtime": 111.8461,
+      "eval_samples_per_second": 8.941,
+      "eval_steps_per_second": 2.235,
+      "step": 980
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 7.314166069030762,
+      "learning_rate": 4.02e-05,
+      "loss": 2.1565,
+      "step": 990
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 1.9187248945236206,
+      "eval_runtime": 110.4362,
+      "eval_samples_per_second": 9.055,
+      "eval_steps_per_second": 2.264,
+      "step": 990
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.6229448318481445,
+      "learning_rate": 4e-05,
+      "loss": 1.7919,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.9095934629440308,
+      "eval_runtime": 103.6218,
+      "eval_samples_per_second": 9.65,
+      "eval_steps_per_second": 2.413,
+      "step": 1000
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 7.193479537963867,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 1.5053,
+      "step": 1010
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 1.9059890508651733,
+      "eval_runtime": 128.523,
+      "eval_samples_per_second": 7.781,
+      "eval_steps_per_second": 1.945,
+      "step": 1010
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 8.449844360351562,
+      "learning_rate": 3.960000000000001e-05,
+      "loss": 1.7817,
+      "step": 1020
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 1.9032129049301147,
+      "eval_runtime": 118.3594,
+      "eval_samples_per_second": 8.449,
+      "eval_steps_per_second": 2.112,
+      "step": 1020
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 8.57231330871582,
+      "learning_rate": 3.94e-05,
+      "loss": 1.9459,
+      "step": 1030
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 1.9003936052322388,
+      "eval_runtime": 148.1691,
+      "eval_samples_per_second": 6.749,
+      "eval_steps_per_second": 1.687,
+      "step": 1030
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 7.97957181930542,
+      "learning_rate": 3.9200000000000004e-05,
+      "loss": 1.9442,
+      "step": 1040
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 1.8994051218032837,
+      "eval_runtime": 138.9543,
+      "eval_samples_per_second": 7.197,
+      "eval_steps_per_second": 1.799,
+      "step": 1040
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 6.236805438995361,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 1.6471,
+      "step": 1050
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 1.8940227031707764,
+      "eval_runtime": 125.7231,
+      "eval_samples_per_second": 7.954,
+      "eval_steps_per_second": 1.988,
+      "step": 1050
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 8.682119369506836,
+      "learning_rate": 3.88e-05,
+      "loss": 1.5088,
+      "step": 1060
+    },
+    {
+      "epoch": 1.06,
+      "eval_loss": 1.9049922227859497,
+      "eval_runtime": 123.3481,
+      "eval_samples_per_second": 8.107,
+      "eval_steps_per_second": 2.027,
+      "step": 1060
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 7.925257682800293,
+      "learning_rate": 3.86e-05,
+      "loss": 1.5251,
+      "step": 1070
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 1.900003433227539,
+      "eval_runtime": 128.7457,
+      "eval_samples_per_second": 7.767,
+      "eval_steps_per_second": 1.942,
+      "step": 1070
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 10.475297927856445,
+      "learning_rate": 3.8400000000000005e-05,
+      "loss": 2.0858,
+      "step": 1080
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 1.8909506797790527,
+      "eval_runtime": 130.1802,
+      "eval_samples_per_second": 7.682,
+      "eval_steps_per_second": 1.92,
+      "step": 1080
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 8.481929779052734,
+      "learning_rate": 3.82e-05,
+      "loss": 1.9986,
+      "step": 1090
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 1.8873074054718018,
+      "eval_runtime": 124.38,
+      "eval_samples_per_second": 8.04,
+      "eval_steps_per_second": 2.01,
+      "step": 1090
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 7.110391616821289,
+      "learning_rate": 3.8e-05,
+      "loss": 2.0248,
+      "step": 1100
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 1.8794257640838623,
+      "eval_runtime": 113.42,
+      "eval_samples_per_second": 8.817,
+      "eval_steps_per_second": 2.204,
+      "step": 1100
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 5.841686725616455,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 1.7042,
+      "step": 1110
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 1.8803025484085083,
+      "eval_runtime": 109.2435,
+      "eval_samples_per_second": 9.154,
+      "eval_steps_per_second": 2.288,
+      "step": 1110
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 4.138281345367432,
+      "learning_rate": 3.76e-05,
+      "loss": 1.749,
+      "step": 1120
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 1.8786567449569702,
+      "eval_runtime": 109.7489,
+      "eval_samples_per_second": 9.112,
+      "eval_steps_per_second": 2.278,
+      "step": 1120
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 8.400279998779297,
+      "learning_rate": 3.74e-05,
+      "loss": 1.8222,
+      "step": 1130
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 1.882354736328125,
+      "eval_runtime": 118.6402,
+      "eval_samples_per_second": 8.429,
+      "eval_steps_per_second": 2.107,
+      "step": 1130
+    },
+    {
+      "epoch": 1.1400000000000001,
+      "grad_norm": 6.2840166091918945,
+      "learning_rate": 3.72e-05,
+      "loss": 2.0553,
+      "step": 1140
+    },
+    {
+      "epoch": 1.1400000000000001,
+      "eval_loss": 1.8792822360992432,
+      "eval_runtime": 120.4519,
+      "eval_samples_per_second": 8.302,
+      "eval_steps_per_second": 2.076,
+      "step": 1140
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 7.492580413818359,
+      "learning_rate": 3.7e-05,
+      "loss": 1.7812,
+      "step": 1150
+    },
+    {
+      "epoch": 1.15,
+      "eval_loss": 1.875270962715149,
+      "eval_runtime": 125.0379,
+      "eval_samples_per_second": 7.998,
+      "eval_steps_per_second": 1.999,
+      "step": 1150
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 7.373579978942871,
+      "learning_rate": 3.68e-05,
+      "loss": 1.8063,
+      "step": 1160
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 1.8711602687835693,
+      "eval_runtime": 123.1041,
+      "eval_samples_per_second": 8.123,
+      "eval_steps_per_second": 2.031,
+      "step": 1160
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 8.983260154724121,
+      "learning_rate": 3.66e-05,
+      "loss": 2.0774,
+      "step": 1170
+    },
+    {
+      "epoch": 1.17,
+      "eval_loss": 1.8704919815063477,
+      "eval_runtime": 115.7789,
+      "eval_samples_per_second": 8.637,
+      "eval_steps_per_second": 2.159,
+      "step": 1170
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 8.41231918334961,
+      "learning_rate": 3.6400000000000004e-05,
+      "loss": 1.5289,
+      "step": 1180
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 1.8638745546340942,
+      "eval_runtime": 108.5452,
+      "eval_samples_per_second": 9.213,
+      "eval_steps_per_second": 2.303,
+      "step": 1180
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 7.630991458892822,
+      "learning_rate": 3.62e-05,
+      "loss": 1.7938,
+      "step": 1190
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 1.8574650287628174,
+      "eval_runtime": 127.6165,
+      "eval_samples_per_second": 7.836,
+      "eval_steps_per_second": 1.959,
+      "step": 1190
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 9.092334747314453,
+      "learning_rate": 3.6e-05,
+      "loss": 1.8305,
+      "step": 1200
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 1.8641369342803955,
+      "eval_runtime": 102.0991,
+      "eval_samples_per_second": 9.794,
+      "eval_steps_per_second": 2.449,
+      "step": 1200
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 5.7870378494262695,
+      "learning_rate": 3.58e-05,
+      "loss": 1.6586,
+      "step": 1210
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 1.8618590831756592,
+      "eval_runtime": 115.5522,
+      "eval_samples_per_second": 8.654,
+      "eval_steps_per_second": 2.164,
+      "step": 1210
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 6.22267484664917,
+      "learning_rate": 3.56e-05,
+      "loss": 1.7842,
+      "step": 1220
+    },
+    {
+      "epoch": 1.22,
+      "eval_loss": 1.8590444326400757,
+      "eval_runtime": 119.2331,
+      "eval_samples_per_second": 8.387,
+      "eval_steps_per_second": 2.097,
+      "step": 1220
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 6.128435134887695,
+      "learning_rate": 3.54e-05,
+      "loss": 1.6496,
+      "step": 1230
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 1.856571078300476,
+      "eval_runtime": 115.6665,
+      "eval_samples_per_second": 8.646,
+      "eval_steps_per_second": 2.161,
+      "step": 1230
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 6.75801944732666,
+      "learning_rate": 3.52e-05,
+      "loss": 1.9095,
+      "step": 1240
+    },
+    {
+      "epoch": 1.24,
+      "eval_loss": 1.8567980527877808,
+      "eval_runtime": 117.0444,
+      "eval_samples_per_second": 8.544,
+      "eval_steps_per_second": 2.136,
+      "step": 1240
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 7.787381649017334,
+      "learning_rate": 3.5e-05,
+      "loss": 1.9586,
+      "step": 1250
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 1.8500583171844482,
+      "eval_runtime": 112.5946,
+      "eval_samples_per_second": 8.881,
+      "eval_steps_per_second": 2.22,
+      "step": 1250
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 5.179034233093262,
+      "learning_rate": 3.48e-05,
+      "loss": 1.483,
+      "step": 1260
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 1.8572009801864624,
+      "eval_runtime": 126.9259,
+      "eval_samples_per_second": 7.879,
+      "eval_steps_per_second": 1.97,
+      "step": 1260
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 9.003114700317383,
+      "learning_rate": 3.46e-05,
+      "loss": 1.5393,
+      "step": 1270
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 1.8491322994232178,
+      "eval_runtime": 130.4481,
+      "eval_samples_per_second": 7.666,
+      "eval_steps_per_second": 1.916,
+      "step": 1270
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 9.390629768371582,
+      "learning_rate": 3.4399999999999996e-05,
+      "loss": 1.9644,
+      "step": 1280
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 1.8494079113006592,
+      "eval_runtime": 133.2843,
+      "eval_samples_per_second": 7.503,
+      "eval_steps_per_second": 1.876,
+      "step": 1280
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 8.873686790466309,
+      "learning_rate": 3.4200000000000005e-05,
+      "loss": 1.8397,
+      "step": 1290
+    },
+    {
+      "epoch": 1.29,
+      "eval_loss": 1.8387765884399414,
+      "eval_runtime": 133.1956,
+      "eval_samples_per_second": 7.508,
+      "eval_steps_per_second": 1.877,
+      "step": 1290
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 8.92082691192627,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 1.5783,
+      "step": 1300
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 1.8463449478149414,
+      "eval_runtime": 132.1846,
+      "eval_samples_per_second": 7.565,
+      "eval_steps_per_second": 1.891,
+      "step": 1300
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 9.575182914733887,
+      "learning_rate": 3.38e-05,
+      "loss": 1.3814,
+      "step": 1310
+    },
+    {
+      "epoch": 1.31,
+      "eval_loss": 1.8390209674835205,
+      "eval_runtime": 112.5756,
+      "eval_samples_per_second": 8.883,
+      "eval_steps_per_second": 2.221,
+      "step": 1310
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 7.706173896789551,
+      "learning_rate": 3.3600000000000004e-05,
+      "loss": 1.9143,
+      "step": 1320
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 1.839473843574524,
+      "eval_runtime": 133.4819,
+      "eval_samples_per_second": 7.492,
+      "eval_steps_per_second": 1.873,
+      "step": 1320
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 6.447656154632568,
+      "learning_rate": 3.3400000000000005e-05,
+      "loss": 1.8488,
+      "step": 1330
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.834652066230774,
+      "eval_runtime": 124.1955,
+      "eval_samples_per_second": 8.052,
+      "eval_steps_per_second": 2.013,
+      "step": 1330
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 7.253933906555176,
+      "learning_rate": 3.32e-05,
+      "loss": 1.7947,
+      "step": 1340
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 1.830536127090454,
+      "eval_runtime": 126.3069,
+      "eval_samples_per_second": 7.917,
+      "eval_steps_per_second": 1.979,
+      "step": 1340
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 7.001797199249268,
+      "learning_rate": 3.3e-05,
+      "loss": 1.9053,
+      "step": 1350
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 1.8331165313720703,
+      "eval_runtime": 130.4927,
+      "eval_samples_per_second": 7.663,
+      "eval_steps_per_second": 1.916,
+      "step": 1350
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 8.703651428222656,
+      "learning_rate": 3.2800000000000004e-05,
+      "loss": 1.8354,
+      "step": 1360
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "eval_loss": 1.8279739618301392,
+      "eval_runtime": 110.2803,
+      "eval_samples_per_second": 9.068,
+      "eval_steps_per_second": 2.267,
+      "step": 1360
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 8.572402000427246,
+      "learning_rate": 3.26e-05,
+      "loss": 1.7067,
+      "step": 1370
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 1.8316876888275146,
+      "eval_runtime": 107.9421,
+      "eval_samples_per_second": 9.264,
+      "eval_steps_per_second": 2.316,
+      "step": 1370
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 5.029556751251221,
+      "learning_rate": 3.24e-05,
+      "loss": 1.5889,
+      "step": 1380
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 1.8241760730743408,
+      "eval_runtime": 119.602,
+      "eval_samples_per_second": 8.361,
+      "eval_steps_per_second": 2.09,
+      "step": 1380
+    },
+    {
+      "epoch": 1.3900000000000001,
+      "grad_norm": 6.689691066741943,
+      "learning_rate": 3.2200000000000003e-05,
+      "loss": 1.8915,
+      "step": 1390
+    },
+    {
+      "epoch": 1.3900000000000001,
+      "eval_loss": 1.8192516565322876,
+      "eval_runtime": 124.5483,
+      "eval_samples_per_second": 8.029,
+      "eval_steps_per_second": 2.007,
+      "step": 1390
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 7.118290424346924,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.8986,
+      "step": 1400
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 1.823815941810608,
+      "eval_runtime": 113.9473,
+      "eval_samples_per_second": 8.776,
+      "eval_steps_per_second": 2.194,
+      "step": 1400
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 8.022662162780762,
+      "learning_rate": 3.18e-05,
+      "loss": 1.9665,
+      "step": 1410
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 1.8193540573120117,
+      "eval_runtime": 125.65,
+      "eval_samples_per_second": 7.959,
+      "eval_steps_per_second": 1.99,
+      "step": 1410
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 6.133983135223389,
+      "learning_rate": 3.16e-05,
+      "loss": 1.6947,
+      "step": 1420
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 1.813571810722351,
+      "eval_runtime": 116.6704,
+      "eval_samples_per_second": 8.571,
+      "eval_steps_per_second": 2.143,
+      "step": 1420
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 10.109593391418457,
+      "learning_rate": 3.1400000000000004e-05,
+      "loss": 1.8847,
+      "step": 1430
+    },
+    {
+      "epoch": 1.43,
+      "eval_loss": 1.8171520233154297,
+      "eval_runtime": 119.4118,
+      "eval_samples_per_second": 8.374,
+      "eval_steps_per_second": 2.094,
+      "step": 1430
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 6.10088586807251,
+      "learning_rate": 3.12e-05,
+      "loss": 2.0466,
+      "step": 1440
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 1.8149670362472534,
+      "eval_runtime": 119.8555,
+      "eval_samples_per_second": 8.343,
+      "eval_steps_per_second": 2.086,
+      "step": 1440
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 6.327012538909912,
+      "learning_rate": 3.1e-05,
+      "loss": 1.6163,
+      "step": 1450
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 1.8084301948547363,
+      "eval_runtime": 111.056,
+      "eval_samples_per_second": 9.004,
+      "eval_steps_per_second": 2.251,
+      "step": 1450
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 7.103956699371338,
+      "learning_rate": 3.08e-05,
+      "loss": 1.8625,
+      "step": 1460
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 1.8112941980361938,
+      "eval_runtime": 133.3088,
+      "eval_samples_per_second": 7.501,
+      "eval_steps_per_second": 1.875,
+      "step": 1460
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 5.035983085632324,
+      "learning_rate": 3.06e-05,
+      "loss": 1.8754,
+      "step": 1470
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 1.8135524988174438,
+      "eval_runtime": 128.5309,
+      "eval_samples_per_second": 7.78,
+      "eval_steps_per_second": 1.945,
+      "step": 1470
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 8.39537525177002,
+      "learning_rate": 3.04e-05,
+      "loss": 1.9341,
+      "step": 1480
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 1.80543851852417,
+      "eval_runtime": 119.3552,
+      "eval_samples_per_second": 8.378,
+      "eval_steps_per_second": 2.095,
+      "step": 1480
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 8.173503875732422,
+      "learning_rate": 3.02e-05,
+      "loss": 2.0139,
+      "step": 1490
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 1.8039709329605103,
+      "eval_runtime": 117.2862,
+      "eval_samples_per_second": 8.526,
+      "eval_steps_per_second": 2.132,
+      "step": 1490
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 8.277552604675293,
+      "learning_rate": 3e-05,
+      "loss": 1.7314,
+      "step": 1500
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 1.803325891494751,
+      "eval_runtime": 109.3603,
+      "eval_samples_per_second": 9.144,
+      "eval_steps_per_second": 2.286,
+      "step": 1500
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 3000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 391938048000000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

fine_tuned_gpt2/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "/Users/user/projects/MindPadiBig/mindpadi/models/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

fine_tuned_gpt2/checkpoint-2000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}

fine_tuned_gpt2/checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3033 @@

+{
+  "best_metric": 1.7480344772338867,
+  "best_model_checkpoint": "/Users/user/projects/MindPadiBig/mindpadi/models/fine_tuned_gpt2/checkpoint-2000",
+  "epoch": 2.0,
+  "eval_steps": 10,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 126.21493530273438,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 6.9352,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 6.456012725830078,
+      "eval_runtime": 128.7117,
+      "eval_samples_per_second": 7.769,
+      "eval_steps_per_second": 1.942,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 112.57171630859375,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 6.2877,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 6.174145698547363,
+      "eval_runtime": 133.4573,
+      "eval_samples_per_second": 7.493,
+      "eval_steps_per_second": 1.873,
+      "step": 20
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 185.73190307617188,
+      "learning_rate": 3e-06,
+      "loss": 5.9569,
+      "step": 30
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 5.594101428985596,
+      "eval_runtime": 136.3272,
+      "eval_samples_per_second": 7.335,
+      "eval_steps_per_second": 1.834,
+      "step": 30
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 160.77322387695312,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 4.9783,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 4.95811128616333,
+      "eval_runtime": 123.0408,
+      "eval_samples_per_second": 8.127,
+      "eval_steps_per_second": 2.032,
+      "step": 40
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 71.51310729980469,
+      "learning_rate": 5e-06,
+      "loss": 4.3123,
+      "step": 50
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 4.30466890335083,
+      "eval_runtime": 117.1478,
+      "eval_samples_per_second": 8.536,
+      "eval_steps_per_second": 2.134,
+      "step": 50
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 55.53121566772461,
+      "learning_rate": 6e-06,
+      "loss": 3.7047,
+      "step": 60
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 3.8378841876983643,
+      "eval_runtime": 109.8285,
+      "eval_samples_per_second": 9.105,
+      "eval_steps_per_second": 2.276,
+      "step": 60
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 16.639528274536133,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 4.1835,
+      "step": 70
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 3.6265947818756104,
+      "eval_runtime": 107.5258,
+      "eval_samples_per_second": 9.3,
+      "eval_steps_per_second": 2.325,
+      "step": 70
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 11.000739097595215,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 3.0598,
+      "step": 80
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 3.5009496212005615,
+      "eval_runtime": 105.6005,
+      "eval_samples_per_second": 9.47,
+      "eval_steps_per_second": 2.367,
+      "step": 80
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 18.876184463500977,
+      "learning_rate": 9e-06,
+      "loss": 3.0835,
+      "step": 90
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 3.402592182159424,
+      "eval_runtime": 106.8507,
+      "eval_samples_per_second": 9.359,
+      "eval_steps_per_second": 2.34,
+      "step": 90
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 10.568647384643555,
+      "learning_rate": 1e-05,
+      "loss": 3.5607,
+      "step": 100
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 3.3077728748321533,
+      "eval_runtime": 107.8277,
+      "eval_samples_per_second": 9.274,
+      "eval_steps_per_second": 2.319,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 6.663860321044922,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 3.3173,
+      "step": 110
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 3.221048355102539,
+      "eval_runtime": 104.8207,
+      "eval_samples_per_second": 9.54,
+      "eval_steps_per_second": 2.385,
+      "step": 110
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 9.180710792541504,
+      "learning_rate": 1.2e-05,
+      "loss": 3.4318,
+      "step": 120
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 3.1418848037719727,
+      "eval_runtime": 104.9529,
+      "eval_samples_per_second": 9.528,
+      "eval_steps_per_second": 2.382,
+      "step": 120
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 7.3332414627075195,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 3.1961,
+      "step": 130
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 3.069470167160034,
+      "eval_runtime": 107.1455,
+      "eval_samples_per_second": 9.333,
+      "eval_steps_per_second": 2.333,
+      "step": 130
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 11.190179824829102,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 2.821,
+      "step": 140
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.998840093612671,
+      "eval_runtime": 109.7303,
+      "eval_samples_per_second": 9.113,
+      "eval_steps_per_second": 2.278,
+      "step": 140
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 10.532099723815918,
+      "learning_rate": 1.5e-05,
+      "loss": 2.8245,
+      "step": 150
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.927992820739746,
+      "eval_runtime": 112.3035,
+      "eval_samples_per_second": 8.904,
+      "eval_steps_per_second": 2.226,
+      "step": 150
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 9.649062156677246,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 2.9165,
+      "step": 160
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.8786165714263916,
+      "eval_runtime": 128.1716,
+      "eval_samples_per_second": 7.802,
+      "eval_steps_per_second": 1.951,
+      "step": 160
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 9.107309341430664,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 3.1418,
+      "step": 170
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.8244595527648926,
+      "eval_runtime": 125.0759,
+      "eval_samples_per_second": 7.995,
+      "eval_steps_per_second": 1.999,
+      "step": 170
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 13.698325157165527,
+      "learning_rate": 1.8e-05,
+      "loss": 3.0323,
+      "step": 180
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.772019386291504,
+      "eval_runtime": 129.6329,
+      "eval_samples_per_second": 7.714,
+      "eval_steps_per_second": 1.929,
+      "step": 180
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 11.200780868530273,
+      "learning_rate": 1.9e-05,
+      "loss": 2.9199,
+      "step": 190
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.7285261154174805,
+      "eval_runtime": 105.2039,
+      "eval_samples_per_second": 9.505,
+      "eval_steps_per_second": 2.376,
+      "step": 190
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 11.479965209960938,
+      "learning_rate": 2e-05,
+      "loss": 2.6733,
+      "step": 200
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 2.695300340652466,
+      "eval_runtime": 102.9704,
+      "eval_samples_per_second": 9.712,
+      "eval_steps_per_second": 2.428,
+      "step": 200
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 11.359460830688477,
+      "learning_rate": 2.1e-05,
+      "loss": 2.8493,
+      "step": 210
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 2.66671085357666,
+      "eval_runtime": 101.0064,
+      "eval_samples_per_second": 9.9,
+      "eval_steps_per_second": 2.475,
+      "step": 210
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 13.90817928314209,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 2.8467,
+      "step": 220
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 2.6324076652526855,
+      "eval_runtime": 102.7459,
+      "eval_samples_per_second": 9.733,
+      "eval_steps_per_second": 2.433,
+      "step": 220
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 12.95048999786377,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 2.5137,
+      "step": 230
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 2.599924087524414,
+      "eval_runtime": 106.8131,
+      "eval_samples_per_second": 9.362,
+      "eval_steps_per_second": 2.341,
+      "step": 230
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 10.900901794433594,
+      "learning_rate": 2.4e-05,
+      "loss": 2.5896,
+      "step": 240
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 2.56974458694458,
+      "eval_runtime": 106.0351,
+      "eval_samples_per_second": 9.431,
+      "eval_steps_per_second": 2.358,
+      "step": 240
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 11.728984832763672,
+      "learning_rate": 2.5e-05,
+      "loss": 3.0882,
+      "step": 250
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 2.5507752895355225,
+      "eval_runtime": 107.1284,
+      "eval_samples_per_second": 9.335,
+      "eval_steps_per_second": 2.334,
+      "step": 250
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 9.277604103088379,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 2.3151,
+      "step": 260
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 2.525682210922241,
+      "eval_runtime": 123.4713,
+      "eval_samples_per_second": 8.099,
+      "eval_steps_per_second": 2.025,
+      "step": 260
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 10.388689041137695,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 2.5188,
+      "step": 270
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 2.499377489089966,
+      "eval_runtime": 127.0825,
+      "eval_samples_per_second": 7.869,
+      "eval_steps_per_second": 1.967,
+      "step": 270
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 7.337620258331299,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 2.4583,
+      "step": 280
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 2.4751341342926025,
+      "eval_runtime": 129.7707,
+      "eval_samples_per_second": 7.706,
+      "eval_steps_per_second": 1.926,
+      "step": 280
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 9.492632865905762,
+      "learning_rate": 2.9e-05,
+      "loss": 2.4552,
+      "step": 290
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 2.449791669845581,
+      "eval_runtime": 127.0769,
+      "eval_samples_per_second": 7.869,
+      "eval_steps_per_second": 1.967,
+      "step": 290
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 12.488316535949707,
+      "learning_rate": 3e-05,
+      "loss": 2.8118,
+      "step": 300
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 2.4329984188079834,
+      "eval_runtime": 125.4816,
+      "eval_samples_per_second": 7.969,
+      "eval_steps_per_second": 1.992,
+      "step": 300
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 10.057647705078125,
+      "learning_rate": 3.1e-05,
+      "loss": 2.5144,
+      "step": 310
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 2.4146034717559814,
+      "eval_runtime": 122.883,
+      "eval_samples_per_second": 8.138,
+      "eval_steps_per_second": 2.034,
+      "step": 310
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 9.721734046936035,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 2.7473,
+      "step": 320
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 2.4046664237976074,
+      "eval_runtime": 113.7917,
+      "eval_samples_per_second": 8.788,
+      "eval_steps_per_second": 2.197,
+      "step": 320
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 4.945127487182617,
+      "learning_rate": 3.3e-05,
+      "loss": 2.46,
+      "step": 330
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 2.380826473236084,
+      "eval_runtime": 111.3358,
+      "eval_samples_per_second": 8.982,
+      "eval_steps_per_second": 2.245,
+      "step": 330
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 12.477653503417969,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 2.6254,
+      "step": 340
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 2.371356964111328,
+      "eval_runtime": 112.2082,
+      "eval_samples_per_second": 8.912,
+      "eval_steps_per_second": 2.228,
+      "step": 340
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 10.182991027832031,
+      "learning_rate": 3.5e-05,
+      "loss": 2.1996,
+      "step": 350
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 2.3486673831939697,
+      "eval_runtime": 107.6972,
+      "eval_samples_per_second": 9.285,
+      "eval_steps_per_second": 2.321,
+      "step": 350
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 10.488390922546387,
+      "learning_rate": 3.6e-05,
+      "loss": 2.6718,
+      "step": 360
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 2.3371098041534424,
+      "eval_runtime": 111.7846,
+      "eval_samples_per_second": 8.946,
+      "eval_steps_per_second": 2.236,
+      "step": 360
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 7.945727825164795,
+      "learning_rate": 3.7e-05,
+      "loss": 2.5803,
+      "step": 370
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 2.3198955059051514,
+      "eval_runtime": 107.6209,
+      "eval_samples_per_second": 9.292,
+      "eval_steps_per_second": 2.323,
+      "step": 370
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 11.906257629394531,
+      "learning_rate": 3.8e-05,
+      "loss": 2.4184,
+      "step": 380
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 2.3155248165130615,
+      "eval_runtime": 108.3746,
+      "eval_samples_per_second": 9.227,
+      "eval_steps_per_second": 2.307,
+      "step": 380
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 11.00644302368164,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 2.2515,
+      "step": 390
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 2.3117854595184326,
+      "eval_runtime": 105.7771,
+      "eval_samples_per_second": 9.454,
+      "eval_steps_per_second": 2.363,
+      "step": 390
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 8.327221870422363,
+      "learning_rate": 4e-05,
+      "loss": 2.4152,
+      "step": 400
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 2.289562940597534,
+      "eval_runtime": 110.3598,
+      "eval_samples_per_second": 9.061,
+      "eval_steps_per_second": 2.265,
+      "step": 400
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 12.397188186645508,
+      "learning_rate": 4.1e-05,
+      "loss": 2.2665,
+      "step": 410
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 2.2749555110931396,
+      "eval_runtime": 105.9973,
+      "eval_samples_per_second": 9.434,
+      "eval_steps_per_second": 2.359,
+      "step": 410
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 11.297379493713379,
+      "learning_rate": 4.2e-05,
+      "loss": 1.6996,
+      "step": 420
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 2.2712552547454834,
+      "eval_runtime": 108.2952,
+      "eval_samples_per_second": 9.234,
+      "eval_steps_per_second": 2.309,
+      "step": 420
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 6.590099811553955,
+      "learning_rate": 4.3e-05,
+      "loss": 2.0371,
+      "step": 430
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 2.2652268409729004,
+      "eval_runtime": 159.4264,
+      "eval_samples_per_second": 6.272,
+      "eval_steps_per_second": 1.568,
+      "step": 430
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 10.717235565185547,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 2.0536,
+      "step": 440
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 2.254389762878418,
+      "eval_runtime": 119.2716,
+      "eval_samples_per_second": 8.384,
+      "eval_steps_per_second": 2.096,
+      "step": 440
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 12.450675964355469,
+      "learning_rate": 4.5e-05,
+      "loss": 2.3436,
+      "step": 450
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 2.241189956665039,
+      "eval_runtime": 101.1513,
+      "eval_samples_per_second": 9.886,
+      "eval_steps_per_second": 2.472,
+      "step": 450
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 10.726924896240234,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 2.2921,
+      "step": 460
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 2.233902931213379,
+      "eval_runtime": 96.5389,
+      "eval_samples_per_second": 10.359,
+      "eval_steps_per_second": 2.59,
+      "step": 460
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 10.492919921875,
+      "learning_rate": 4.7e-05,
+      "loss": 2.0704,
+      "step": 470
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 2.223443031311035,
+      "eval_runtime": 94.3771,
+      "eval_samples_per_second": 10.596,
+      "eval_steps_per_second": 2.649,
+      "step": 470
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 12.142420768737793,
+      "learning_rate": 4.8e-05,
+      "loss": 2.3475,
+      "step": 480
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 2.20881986618042,
+      "eval_runtime": 88.7095,
+      "eval_samples_per_second": 11.273,
+      "eval_steps_per_second": 2.818,
+      "step": 480
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 11.031810760498047,
+      "learning_rate": 4.9e-05,
+      "loss": 2.3123,
+      "step": 490
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 2.193828582763672,
+      "eval_runtime": 90.0998,
+      "eval_samples_per_second": 11.099,
+      "eval_steps_per_second": 2.775,
+      "step": 490
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 8.5560884475708,
+      "learning_rate": 5e-05,
+      "loss": 2.4333,
+      "step": 500
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 2.1911978721618652,
+      "eval_runtime": 93.2158,
+      "eval_samples_per_second": 10.728,
+      "eval_steps_per_second": 2.682,
+      "step": 500
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 9.033146858215332,
+      "learning_rate": 4.9800000000000004e-05,
+      "loss": 1.8733,
+      "step": 510
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 2.1788506507873535,
+      "eval_runtime": 92.6001,
+      "eval_samples_per_second": 10.799,
+      "eval_steps_per_second": 2.7,
+      "step": 510
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 12.906278610229492,
+      "learning_rate": 4.96e-05,
+      "loss": 2.4447,
+      "step": 520
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 2.170750379562378,
+      "eval_runtime": 88.3981,
+      "eval_samples_per_second": 11.312,
+      "eval_steps_per_second": 2.828,
+      "step": 520
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 13.015795707702637,
+      "learning_rate": 4.94e-05,
+      "loss": 1.848,
+      "step": 530
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 2.161830186843872,
+      "eval_runtime": 91.5465,
+      "eval_samples_per_second": 10.923,
+      "eval_steps_per_second": 2.731,
+      "step": 530
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 12.636075019836426,
+      "learning_rate": 4.92e-05,
+      "loss": 2.2895,
+      "step": 540
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 2.1537909507751465,
+      "eval_runtime": 86.8374,
+      "eval_samples_per_second": 11.516,
+      "eval_steps_per_second": 2.879,
+      "step": 540
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 7.789541244506836,
+      "learning_rate": 4.9e-05,
+      "loss": 1.8584,
+      "step": 550
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 2.148059129714966,
+      "eval_runtime": 89.2466,
+      "eval_samples_per_second": 11.205,
+      "eval_steps_per_second": 2.801,
+      "step": 550
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 10.41247844696045,
+      "learning_rate": 4.88e-05,
+      "loss": 2.2246,
+      "step": 560
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 2.1307997703552246,
+      "eval_runtime": 88.7743,
+      "eval_samples_per_second": 11.265,
+      "eval_steps_per_second": 2.816,
+      "step": 560
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 8.509031295776367,
+      "learning_rate": 4.86e-05,
+      "loss": 2.1681,
+      "step": 570
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 2.117568016052246,
+      "eval_runtime": 90.3366,
+      "eval_samples_per_second": 11.07,
+      "eval_steps_per_second": 2.767,
+      "step": 570
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 5.50130558013916,
+      "learning_rate": 4.8400000000000004e-05,
+      "loss": 1.9694,
+      "step": 580
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 2.111440896987915,
+      "eval_runtime": 92.8312,
+      "eval_samples_per_second": 10.772,
+      "eval_steps_per_second": 2.693,
+      "step": 580
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 10.277608871459961,
+      "learning_rate": 4.82e-05,
+      "loss": 2.3159,
+      "step": 590
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 2.1107966899871826,
+      "eval_runtime": 91.0566,
+      "eval_samples_per_second": 10.982,
+      "eval_steps_per_second": 2.746,
+      "step": 590
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 10.415202140808105,
+      "learning_rate": 4.8e-05,
+      "loss": 2.0298,
+      "step": 600
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 2.1007392406463623,
+      "eval_runtime": 90.2452,
+      "eval_samples_per_second": 11.081,
+      "eval_steps_per_second": 2.77,
+      "step": 600
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 9.051558494567871,
+      "learning_rate": 4.78e-05,
+      "loss": 2.1856,
+      "step": 610
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 2.0893638134002686,
+      "eval_runtime": 97.6967,
+      "eval_samples_per_second": 10.236,
+      "eval_steps_per_second": 2.559,
+      "step": 610
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 6.953254222869873,
+      "learning_rate": 4.76e-05,
+      "loss": 1.8901,
+      "step": 620
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 2.0824646949768066,
+      "eval_runtime": 91.0278,
+      "eval_samples_per_second": 10.986,
+      "eval_steps_per_second": 2.746,
+      "step": 620
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 7.948352813720703,
+      "learning_rate": 4.74e-05,
+      "loss": 2.3327,
+      "step": 630
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 2.074693441390991,
+      "eval_runtime": 101.8312,
+      "eval_samples_per_second": 9.82,
+      "eval_steps_per_second": 2.455,
+      "step": 630
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 9.384662628173828,
+      "learning_rate": 4.72e-05,
+      "loss": 2.3253,
+      "step": 640
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 2.067964792251587,
+      "eval_runtime": 93.9189,
+      "eval_samples_per_second": 10.647,
+      "eval_steps_per_second": 2.662,
+      "step": 640
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 6.1795759201049805,
+      "learning_rate": 4.7e-05,
+      "loss": 2.189,
+      "step": 650
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 2.0557608604431152,
+      "eval_runtime": 97.6001,
+      "eval_samples_per_second": 10.246,
+      "eval_steps_per_second": 2.561,
+      "step": 650
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 9.642065048217773,
+      "learning_rate": 4.6800000000000006e-05,
+      "loss": 2.146,
+      "step": 660
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 2.0541083812713623,
+      "eval_runtime": 98.8714,
+      "eval_samples_per_second": 10.114,
+      "eval_steps_per_second": 2.529,
+      "step": 660
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 6.987886428833008,
+      "learning_rate": 4.660000000000001e-05,
+      "loss": 1.8356,
+      "step": 670
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 2.053222417831421,
+      "eval_runtime": 90.3869,
+      "eval_samples_per_second": 11.064,
+      "eval_steps_per_second": 2.766,
+      "step": 670
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 10.291470527648926,
+      "learning_rate": 4.64e-05,
+      "loss": 2.3633,
+      "step": 680
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 2.0410830974578857,
+      "eval_runtime": 92.923,
+      "eval_samples_per_second": 10.762,
+      "eval_steps_per_second": 2.69,
+      "step": 680
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 8.183449745178223,
+      "learning_rate": 4.6200000000000005e-05,
+      "loss": 2.1429,
+      "step": 690
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 2.035935640335083,
+      "eval_runtime": 106.6596,
+      "eval_samples_per_second": 9.376,
+      "eval_steps_per_second": 2.344,
+      "step": 690
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 7.329190254211426,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 2.2302,
+      "step": 700
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 2.033024311065674,
+      "eval_runtime": 100.5784,
+      "eval_samples_per_second": 9.942,
+      "eval_steps_per_second": 2.486,
+      "step": 700
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 9.20626163482666,
+      "learning_rate": 4.58e-05,
+      "loss": 2.0641,
+      "step": 710
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 2.025780439376831,
+      "eval_runtime": 112.3754,
+      "eval_samples_per_second": 8.899,
+      "eval_steps_per_second": 2.225,
+      "step": 710
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 11.579280853271484,
+      "learning_rate": 4.5600000000000004e-05,
+      "loss": 2.0106,
+      "step": 720
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 2.023242950439453,
+      "eval_runtime": 100.8727,
+      "eval_samples_per_second": 9.913,
+      "eval_steps_per_second": 2.478,
+      "step": 720
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 9.62726879119873,
+      "learning_rate": 4.5400000000000006e-05,
+      "loss": 2.1251,
+      "step": 730
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 2.019562244415283,
+      "eval_runtime": 98.6758,
+      "eval_samples_per_second": 10.134,
+      "eval_steps_per_second": 2.534,
+      "step": 730
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 8.502236366271973,
+      "learning_rate": 4.52e-05,
+      "loss": 2.1068,
+      "step": 740
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 2.0147552490234375,
+      "eval_runtime": 101.3373,
+      "eval_samples_per_second": 9.868,
+      "eval_steps_per_second": 2.467,
+      "step": 740
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 8.522944450378418,
+      "learning_rate": 4.5e-05,
+      "loss": 2.3803,
+      "step": 750
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 2.0065298080444336,
+      "eval_runtime": 115.4706,
+      "eval_samples_per_second": 8.66,
+      "eval_steps_per_second": 2.165,
+      "step": 750
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 9.323762893676758,
+      "learning_rate": 4.4800000000000005e-05,
+      "loss": 2.2126,
+      "step": 760
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 2.000988006591797,
+      "eval_runtime": 131.4565,
+      "eval_samples_per_second": 7.607,
+      "eval_steps_per_second": 1.902,
+      "step": 760
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 7.243586540222168,
+      "learning_rate": 4.46e-05,
+      "loss": 2.2732,
+      "step": 770
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.9990744590759277,
+      "eval_runtime": 117.2201,
+      "eval_samples_per_second": 8.531,
+      "eval_steps_per_second": 2.133,
+      "step": 770
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 10.664429664611816,
+      "learning_rate": 4.44e-05,
+      "loss": 2.2521,
+      "step": 780
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 1.988065242767334,
+      "eval_runtime": 105.5882,
+      "eval_samples_per_second": 9.471,
+      "eval_steps_per_second": 2.368,
+      "step": 780
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 9.04030704498291,
+      "learning_rate": 4.4200000000000004e-05,
+      "loss": 1.9933,
+      "step": 790
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 1.9845080375671387,
+      "eval_runtime": 101.4877,
+      "eval_samples_per_second": 9.853,
+      "eval_steps_per_second": 2.463,
+      "step": 790
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 9.38503646850586,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 1.9956,
+      "step": 800
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.9831095933914185,
+      "eval_runtime": 148.7473,
+      "eval_samples_per_second": 6.723,
+      "eval_steps_per_second": 1.681,
+      "step": 800
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 6.387115955352783,
+      "learning_rate": 4.38e-05,
+      "loss": 2.0059,
+      "step": 810
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 1.976269006729126,
+      "eval_runtime": 129.9491,
+      "eval_samples_per_second": 7.695,
+      "eval_steps_per_second": 1.924,
+      "step": 810
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 8.890172004699707,
+      "learning_rate": 4.36e-05,
+      "loss": 2.2373,
+      "step": 820
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 1.974748969078064,
+      "eval_runtime": 164.1513,
+      "eval_samples_per_second": 6.092,
+      "eval_steps_per_second": 1.523,
+      "step": 820
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 10.762927055358887,
+      "learning_rate": 4.3400000000000005e-05,
+      "loss": 2.186,
+      "step": 830
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 1.9657306671142578,
+      "eval_runtime": 142.9199,
+      "eval_samples_per_second": 6.997,
+      "eval_steps_per_second": 1.749,
+      "step": 830
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 9.816293716430664,
+      "learning_rate": 4.32e-05,
+      "loss": 1.6506,
+      "step": 840
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 1.9642084836959839,
+      "eval_runtime": 173.606,
+      "eval_samples_per_second": 5.76,
+      "eval_steps_per_second": 1.44,
+      "step": 840
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 7.931281089782715,
+      "learning_rate": 4.3e-05,
+      "loss": 1.7588,
+      "step": 850
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 1.9623171091079712,
+      "eval_runtime": 158.121,
+      "eval_samples_per_second": 6.324,
+      "eval_steps_per_second": 1.581,
+      "step": 850
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 8.325611114501953,
+      "learning_rate": 4.2800000000000004e-05,
+      "loss": 1.8801,
+      "step": 860
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 1.9604990482330322,
+      "eval_runtime": 156.6306,
+      "eval_samples_per_second": 6.384,
+      "eval_steps_per_second": 1.596,
+      "step": 860
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 8.10270881652832,
+      "learning_rate": 4.26e-05,
+      "loss": 1.8894,
+      "step": 870
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 1.9559086561203003,
+      "eval_runtime": 165.5477,
+      "eval_samples_per_second": 6.041,
+      "eval_steps_per_second": 1.51,
+      "step": 870
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 8.666308403015137,
+      "learning_rate": 4.24e-05,
+      "loss": 2.1945,
+      "step": 880
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 1.953808307647705,
+      "eval_runtime": 155.1083,
+      "eval_samples_per_second": 6.447,
+      "eval_steps_per_second": 1.612,
+      "step": 880
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 7.216370105743408,
+      "learning_rate": 4.22e-05,
+      "loss": 2.1958,
+      "step": 890
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 1.9536200761795044,
+      "eval_runtime": 153.3145,
+      "eval_samples_per_second": 6.523,
+      "eval_steps_per_second": 1.631,
+      "step": 890
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 7.325380802154541,
+      "learning_rate": 4.2e-05,
+      "loss": 1.8137,
+      "step": 900
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 1.9444538354873657,
+      "eval_runtime": 157.7008,
+      "eval_samples_per_second": 6.341,
+      "eval_steps_per_second": 1.585,
+      "step": 900
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 6.625280857086182,
+      "learning_rate": 4.18e-05,
+      "loss": 1.8925,
+      "step": 910
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 1.9409335851669312,
+      "eval_runtime": 149.5155,
+      "eval_samples_per_second": 6.688,
+      "eval_steps_per_second": 1.672,
+      "step": 910
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 5.897461414337158,
+      "learning_rate": 4.16e-05,
+      "loss": 1.8322,
+      "step": 920
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 1.9331930875778198,
+      "eval_runtime": 127.1983,
+      "eval_samples_per_second": 7.862,
+      "eval_steps_per_second": 1.965,
+      "step": 920
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 9.08010482788086,
+      "learning_rate": 4.14e-05,
+      "loss": 2.042,
+      "step": 930
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 1.9316186904907227,
+      "eval_runtime": 118.4354,
+      "eval_samples_per_second": 8.443,
+      "eval_steps_per_second": 2.111,
+      "step": 930
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 9.264948844909668,
+      "learning_rate": 4.12e-05,
+      "loss": 1.7826,
+      "step": 940
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 1.9262688159942627,
+      "eval_runtime": 113.7982,
+      "eval_samples_per_second": 8.787,
+      "eval_steps_per_second": 2.197,
+      "step": 940
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 10.431904792785645,
+      "learning_rate": 4.1e-05,
+      "loss": 1.7883,
+      "step": 950
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 1.9221816062927246,
+      "eval_runtime": 107.3673,
+      "eval_samples_per_second": 9.314,
+      "eval_steps_per_second": 2.328,
+      "step": 950
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 5.923398017883301,
+      "learning_rate": 4.08e-05,
+      "loss": 1.5646,
+      "step": 960
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 1.9227478504180908,
+      "eval_runtime": 121.0769,
+      "eval_samples_per_second": 8.259,
+      "eval_steps_per_second": 2.065,
+      "step": 960
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 8.440842628479004,
+      "learning_rate": 4.0600000000000004e-05,
+      "loss": 1.6706,
+      "step": 970
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 1.9174282550811768,
+      "eval_runtime": 121.92,
+      "eval_samples_per_second": 8.202,
+      "eval_steps_per_second": 2.051,
+      "step": 970
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 6.066262245178223,
+      "learning_rate": 4.0400000000000006e-05,
+      "loss": 1.6543,
+      "step": 980
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 1.915424108505249,
+      "eval_runtime": 111.8461,
+      "eval_samples_per_second": 8.941,
+      "eval_steps_per_second": 2.235,
+      "step": 980
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 7.314166069030762,
+      "learning_rate": 4.02e-05,
+      "loss": 2.1565,
+      "step": 990
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 1.9187248945236206,
+      "eval_runtime": 110.4362,
+      "eval_samples_per_second": 9.055,
+      "eval_steps_per_second": 2.264,
+      "step": 990
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 3.6229448318481445,
+      "learning_rate": 4e-05,
+      "loss": 1.7919,
+      "step": 1000
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.9095934629440308,
+      "eval_runtime": 103.6218,
+      "eval_samples_per_second": 9.65,
+      "eval_steps_per_second": 2.413,
+      "step": 1000
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 7.193479537963867,
+      "learning_rate": 3.9800000000000005e-05,
+      "loss": 1.5053,
+      "step": 1010
+    },
+    {
+      "epoch": 1.01,
+      "eval_loss": 1.9059890508651733,
+      "eval_runtime": 128.523,
+      "eval_samples_per_second": 7.781,
+      "eval_steps_per_second": 1.945,
+      "step": 1010
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 8.449844360351562,
+      "learning_rate": 3.960000000000001e-05,
+      "loss": 1.7817,
+      "step": 1020
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 1.9032129049301147,
+      "eval_runtime": 118.3594,
+      "eval_samples_per_second": 8.449,
+      "eval_steps_per_second": 2.112,
+      "step": 1020
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 8.57231330871582,
+      "learning_rate": 3.94e-05,
+      "loss": 1.9459,
+      "step": 1030
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 1.9003936052322388,
+      "eval_runtime": 148.1691,
+      "eval_samples_per_second": 6.749,
+      "eval_steps_per_second": 1.687,
+      "step": 1030
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 7.97957181930542,
+      "learning_rate": 3.9200000000000004e-05,
+      "loss": 1.9442,
+      "step": 1040
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 1.8994051218032837,
+      "eval_runtime": 138.9543,
+      "eval_samples_per_second": 7.197,
+      "eval_steps_per_second": 1.799,
+      "step": 1040
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 6.236805438995361,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 1.6471,
+      "step": 1050
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 1.8940227031707764,
+      "eval_runtime": 125.7231,
+      "eval_samples_per_second": 7.954,
+      "eval_steps_per_second": 1.988,
+      "step": 1050
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 8.682119369506836,
+      "learning_rate": 3.88e-05,
+      "loss": 1.5088,
+      "step": 1060
+    },
+    {
+      "epoch": 1.06,
+      "eval_loss": 1.9049922227859497,
+      "eval_runtime": 123.3481,
+      "eval_samples_per_second": 8.107,
+      "eval_steps_per_second": 2.027,
+      "step": 1060
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 7.925257682800293,
+      "learning_rate": 3.86e-05,
+      "loss": 1.5251,
+      "step": 1070
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 1.900003433227539,
+      "eval_runtime": 128.7457,
+      "eval_samples_per_second": 7.767,
+      "eval_steps_per_second": 1.942,
+      "step": 1070
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 10.475297927856445,
+      "learning_rate": 3.8400000000000005e-05,
+      "loss": 2.0858,
+      "step": 1080
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 1.8909506797790527,
+      "eval_runtime": 130.1802,
+      "eval_samples_per_second": 7.682,
+      "eval_steps_per_second": 1.92,
+      "step": 1080
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 8.481929779052734,
+      "learning_rate": 3.82e-05,
+      "loss": 1.9986,
+      "step": 1090
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 1.8873074054718018,
+      "eval_runtime": 124.38,
+      "eval_samples_per_second": 8.04,
+      "eval_steps_per_second": 2.01,
+      "step": 1090
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 7.110391616821289,
+      "learning_rate": 3.8e-05,
+      "loss": 2.0248,
+      "step": 1100
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 1.8794257640838623,
+      "eval_runtime": 113.42,
+      "eval_samples_per_second": 8.817,
+      "eval_steps_per_second": 2.204,
+      "step": 1100
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 5.841686725616455,
+      "learning_rate": 3.7800000000000004e-05,
+      "loss": 1.7042,
+      "step": 1110
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 1.8803025484085083,
+      "eval_runtime": 109.2435,
+      "eval_samples_per_second": 9.154,
+      "eval_steps_per_second": 2.288,
+      "step": 1110
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 4.138281345367432,
+      "learning_rate": 3.76e-05,
+      "loss": 1.749,
+      "step": 1120
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 1.8786567449569702,
+      "eval_runtime": 109.7489,
+      "eval_samples_per_second": 9.112,
+      "eval_steps_per_second": 2.278,
+      "step": 1120
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 8.400279998779297,
+      "learning_rate": 3.74e-05,
+      "loss": 1.8222,
+      "step": 1130
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 1.882354736328125,
+      "eval_runtime": 118.6402,
+      "eval_samples_per_second": 8.429,
+      "eval_steps_per_second": 2.107,
+      "step": 1130
+    },
+    {
+      "epoch": 1.1400000000000001,
+      "grad_norm": 6.2840166091918945,
+      "learning_rate": 3.72e-05,
+      "loss": 2.0553,
+      "step": 1140
+    },
+    {
+      "epoch": 1.1400000000000001,
+      "eval_loss": 1.8792822360992432,
+      "eval_runtime": 120.4519,
+      "eval_samples_per_second": 8.302,
+      "eval_steps_per_second": 2.076,
+      "step": 1140
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 7.492580413818359,
+      "learning_rate": 3.7e-05,
+      "loss": 1.7812,
+      "step": 1150
+    },
+    {
+      "epoch": 1.15,
+      "eval_loss": 1.875270962715149,
+      "eval_runtime": 125.0379,
+      "eval_samples_per_second": 7.998,
+      "eval_steps_per_second": 1.999,
+      "step": 1150
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 7.373579978942871,
+      "learning_rate": 3.68e-05,
+      "loss": 1.8063,
+      "step": 1160
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 1.8711602687835693,
+      "eval_runtime": 123.1041,
+      "eval_samples_per_second": 8.123,
+      "eval_steps_per_second": 2.031,
+      "step": 1160
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 8.983260154724121,
+      "learning_rate": 3.66e-05,
+      "loss": 2.0774,
+      "step": 1170
+    },
+    {
+      "epoch": 1.17,
+      "eval_loss": 1.8704919815063477,
+      "eval_runtime": 115.7789,
+      "eval_samples_per_second": 8.637,
+      "eval_steps_per_second": 2.159,
+      "step": 1170
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 8.41231918334961,
+      "learning_rate": 3.6400000000000004e-05,
+      "loss": 1.5289,
+      "step": 1180
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 1.8638745546340942,
+      "eval_runtime": 108.5452,
+      "eval_samples_per_second": 9.213,
+      "eval_steps_per_second": 2.303,
+      "step": 1180
+    },
+    {
+      "epoch": 1.19,
+      "grad_norm": 7.630991458892822,
+      "learning_rate": 3.62e-05,
+      "loss": 1.7938,
+      "step": 1190
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 1.8574650287628174,
+      "eval_runtime": 127.6165,
+      "eval_samples_per_second": 7.836,
+      "eval_steps_per_second": 1.959,
+      "step": 1190
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 9.092334747314453,
+      "learning_rate": 3.6e-05,
+      "loss": 1.8305,
+      "step": 1200
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 1.8641369342803955,
+      "eval_runtime": 102.0991,
+      "eval_samples_per_second": 9.794,
+      "eval_steps_per_second": 2.449,
+      "step": 1200
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 5.7870378494262695,
+      "learning_rate": 3.58e-05,
+      "loss": 1.6586,
+      "step": 1210
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 1.8618590831756592,
+      "eval_runtime": 115.5522,
+      "eval_samples_per_second": 8.654,
+      "eval_steps_per_second": 2.164,
+      "step": 1210
+    },
+    {
+      "epoch": 1.22,
+      "grad_norm": 6.22267484664917,
+      "learning_rate": 3.56e-05,
+      "loss": 1.7842,
+      "step": 1220
+    },
+    {
+      "epoch": 1.22,
+      "eval_loss": 1.8590444326400757,
+      "eval_runtime": 119.2331,
+      "eval_samples_per_second": 8.387,
+      "eval_steps_per_second": 2.097,
+      "step": 1220
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 6.128435134887695,
+      "learning_rate": 3.54e-05,
+      "loss": 1.6496,
+      "step": 1230
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 1.856571078300476,
+      "eval_runtime": 115.6665,
+      "eval_samples_per_second": 8.646,
+      "eval_steps_per_second": 2.161,
+      "step": 1230
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 6.75801944732666,
+      "learning_rate": 3.52e-05,
+      "loss": 1.9095,
+      "step": 1240
+    },
+    {
+      "epoch": 1.24,
+      "eval_loss": 1.8567980527877808,
+      "eval_runtime": 117.0444,
+      "eval_samples_per_second": 8.544,
+      "eval_steps_per_second": 2.136,
+      "step": 1240
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 7.787381649017334,
+      "learning_rate": 3.5e-05,
+      "loss": 1.9586,
+      "step": 1250
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 1.8500583171844482,
+      "eval_runtime": 112.5946,
+      "eval_samples_per_second": 8.881,
+      "eval_steps_per_second": 2.22,
+      "step": 1250
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 5.179034233093262,
+      "learning_rate": 3.48e-05,
+      "loss": 1.483,
+      "step": 1260
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 1.8572009801864624,
+      "eval_runtime": 126.9259,
+      "eval_samples_per_second": 7.879,
+      "eval_steps_per_second": 1.97,
+      "step": 1260
+    },
+    {
+      "epoch": 1.27,
+      "grad_norm": 9.003114700317383,
+      "learning_rate": 3.46e-05,
+      "loss": 1.5393,
+      "step": 1270
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 1.8491322994232178,
+      "eval_runtime": 130.4481,
+      "eval_samples_per_second": 7.666,
+      "eval_steps_per_second": 1.916,
+      "step": 1270
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 9.390629768371582,
+      "learning_rate": 3.4399999999999996e-05,
+      "loss": 1.9644,
+      "step": 1280
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 1.8494079113006592,
+      "eval_runtime": 133.2843,
+      "eval_samples_per_second": 7.503,
+      "eval_steps_per_second": 1.876,
+      "step": 1280
+    },
+    {
+      "epoch": 1.29,
+      "grad_norm": 8.873686790466309,
+      "learning_rate": 3.4200000000000005e-05,
+      "loss": 1.8397,
+      "step": 1290
+    },
+    {
+      "epoch": 1.29,
+      "eval_loss": 1.8387765884399414,
+      "eval_runtime": 133.1956,
+      "eval_samples_per_second": 7.508,
+      "eval_steps_per_second": 1.877,
+      "step": 1290
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 8.92082691192627,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 1.5783,
+      "step": 1300
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 1.8463449478149414,
+      "eval_runtime": 132.1846,
+      "eval_samples_per_second": 7.565,
+      "eval_steps_per_second": 1.891,
+      "step": 1300
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 9.575182914733887,
+      "learning_rate": 3.38e-05,
+      "loss": 1.3814,
+      "step": 1310
+    },
+    {
+      "epoch": 1.31,
+      "eval_loss": 1.8390209674835205,
+      "eval_runtime": 112.5756,
+      "eval_samples_per_second": 8.883,
+      "eval_steps_per_second": 2.221,
+      "step": 1310
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 7.706173896789551,
+      "learning_rate": 3.3600000000000004e-05,
+      "loss": 1.9143,
+      "step": 1320
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 1.839473843574524,
+      "eval_runtime": 133.4819,
+      "eval_samples_per_second": 7.492,
+      "eval_steps_per_second": 1.873,
+      "step": 1320
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 6.447656154632568,
+      "learning_rate": 3.3400000000000005e-05,
+      "loss": 1.8488,
+      "step": 1330
+    },
+    {
+      "epoch": 1.33,
+      "eval_loss": 1.834652066230774,
+      "eval_runtime": 124.1955,
+      "eval_samples_per_second": 8.052,
+      "eval_steps_per_second": 2.013,
+      "step": 1330
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 7.253933906555176,
+      "learning_rate": 3.32e-05,
+      "loss": 1.7947,
+      "step": 1340
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 1.830536127090454,
+      "eval_runtime": 126.3069,
+      "eval_samples_per_second": 7.917,
+      "eval_steps_per_second": 1.979,
+      "step": 1340
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 7.001797199249268,
+      "learning_rate": 3.3e-05,
+      "loss": 1.9053,
+      "step": 1350
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 1.8331165313720703,
+      "eval_runtime": 130.4927,
+      "eval_samples_per_second": 7.663,
+      "eval_steps_per_second": 1.916,
+      "step": 1350
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 8.703651428222656,
+      "learning_rate": 3.2800000000000004e-05,
+      "loss": 1.8354,
+      "step": 1360
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "eval_loss": 1.8279739618301392,
+      "eval_runtime": 110.2803,
+      "eval_samples_per_second": 9.068,
+      "eval_steps_per_second": 2.267,
+      "step": 1360
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 8.572402000427246,
+      "learning_rate": 3.26e-05,
+      "loss": 1.7067,
+      "step": 1370
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 1.8316876888275146,
+      "eval_runtime": 107.9421,
+      "eval_samples_per_second": 9.264,
+      "eval_steps_per_second": 2.316,
+      "step": 1370
+    },
+    {
+      "epoch": 1.38,
+      "grad_norm": 5.029556751251221,
+      "learning_rate": 3.24e-05,
+      "loss": 1.5889,
+      "step": 1380
+    },
+    {
+      "epoch": 1.38,
+      "eval_loss": 1.8241760730743408,
+      "eval_runtime": 119.602,
+      "eval_samples_per_second": 8.361,
+      "eval_steps_per_second": 2.09,
+      "step": 1380
+    },
+    {
+      "epoch": 1.3900000000000001,
+      "grad_norm": 6.689691066741943,
+      "learning_rate": 3.2200000000000003e-05,
+      "loss": 1.8915,
+      "step": 1390
+    },
+    {
+      "epoch": 1.3900000000000001,
+      "eval_loss": 1.8192516565322876,
+      "eval_runtime": 124.5483,
+      "eval_samples_per_second": 8.029,
+      "eval_steps_per_second": 2.007,
+      "step": 1390
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 7.118290424346924,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.8986,
+      "step": 1400
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 1.823815941810608,
+      "eval_runtime": 113.9473,
+      "eval_samples_per_second": 8.776,
+      "eval_steps_per_second": 2.194,
+      "step": 1400
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 8.022662162780762,
+      "learning_rate": 3.18e-05,
+      "loss": 1.9665,
+      "step": 1410
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 1.8193540573120117,
+      "eval_runtime": 125.65,
+      "eval_samples_per_second": 7.959,
+      "eval_steps_per_second": 1.99,
+      "step": 1410
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 6.133983135223389,
+      "learning_rate": 3.16e-05,
+      "loss": 1.6947,
+      "step": 1420
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 1.813571810722351,
+      "eval_runtime": 116.6704,
+      "eval_samples_per_second": 8.571,
+      "eval_steps_per_second": 2.143,
+      "step": 1420
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 10.109593391418457,
+      "learning_rate": 3.1400000000000004e-05,
+      "loss": 1.8847,
+      "step": 1430
+    },
+    {
+      "epoch": 1.43,
+      "eval_loss": 1.8171520233154297,
+      "eval_runtime": 119.4118,
+      "eval_samples_per_second": 8.374,
+      "eval_steps_per_second": 2.094,
+      "step": 1430
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 6.10088586807251,
+      "learning_rate": 3.12e-05,
+      "loss": 2.0466,
+      "step": 1440
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 1.8149670362472534,
+      "eval_runtime": 119.8555,
+      "eval_samples_per_second": 8.343,
+      "eval_steps_per_second": 2.086,
+      "step": 1440
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 6.327012538909912,
+      "learning_rate": 3.1e-05,
+      "loss": 1.6163,
+      "step": 1450
+    },
+    {
+      "epoch": 1.45,
+      "eval_loss": 1.8084301948547363,
+      "eval_runtime": 111.056,
+      "eval_samples_per_second": 9.004,
+      "eval_steps_per_second": 2.251,
+      "step": 1450
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 7.103956699371338,
+      "learning_rate": 3.08e-05,
+      "loss": 1.8625,
+      "step": 1460
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 1.8112941980361938,
+      "eval_runtime": 133.3088,
+      "eval_samples_per_second": 7.501,
+      "eval_steps_per_second": 1.875,
+      "step": 1460
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 5.035983085632324,
+      "learning_rate": 3.06e-05,
+      "loss": 1.8754,
+      "step": 1470
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 1.8135524988174438,
+      "eval_runtime": 128.5309,
+      "eval_samples_per_second": 7.78,
+      "eval_steps_per_second": 1.945,
+      "step": 1470
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 8.39537525177002,
+      "learning_rate": 3.04e-05,
+      "loss": 1.9341,
+      "step": 1480
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 1.80543851852417,
+      "eval_runtime": 119.3552,
+      "eval_samples_per_second": 8.378,
+      "eval_steps_per_second": 2.095,
+      "step": 1480
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 8.173503875732422,
+      "learning_rate": 3.02e-05,
+      "loss": 2.0139,
+      "step": 1490
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 1.8039709329605103,
+      "eval_runtime": 117.2862,
+      "eval_samples_per_second": 8.526,
+      "eval_steps_per_second": 2.132,
+      "step": 1490
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 8.277552604675293,
+      "learning_rate": 3e-05,
+      "loss": 1.7314,
+      "step": 1500
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 1.803325891494751,
+      "eval_runtime": 109.3603,
+      "eval_samples_per_second": 9.144,
+      "eval_steps_per_second": 2.286,
+      "step": 1500
+    },
+    {
+      "epoch": 1.51,
+      "grad_norm": 9.082454681396484,
+      "learning_rate": 2.98e-05,
+      "loss": 1.8701,
+      "step": 1510
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 1.8039252758026123,
+      "eval_runtime": 120.7697,
+      "eval_samples_per_second": 8.28,
+      "eval_steps_per_second": 2.07,
+      "step": 1510
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 8.467123031616211,
+      "learning_rate": 2.96e-05,
+      "loss": 1.9261,
+      "step": 1520
+    },
+    {
+      "epoch": 1.52,
+      "eval_loss": 1.8020439147949219,
+      "eval_runtime": 153.5563,
+      "eval_samples_per_second": 6.512,
+      "eval_steps_per_second": 1.628,
+      "step": 1520
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 5.499407768249512,
+      "learning_rate": 2.94e-05,
+      "loss": 1.8215,
+      "step": 1530
+    },
+    {
+      "epoch": 1.53,
+      "eval_loss": 1.7952924966812134,
+      "eval_runtime": 155.9237,
+      "eval_samples_per_second": 6.413,
+      "eval_steps_per_second": 1.603,
+      "step": 1530
+    },
+    {
+      "epoch": 1.54,
+      "grad_norm": 5.463346004486084,
+      "learning_rate": 2.9199999999999998e-05,
+      "loss": 1.7999,
+      "step": 1540
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 1.8003672361373901,
+      "eval_runtime": 121.61,
+      "eval_samples_per_second": 8.223,
+      "eval_steps_per_second": 2.056,
+      "step": 1540
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 6.3344244956970215,
+      "learning_rate": 2.9e-05,
+      "loss": 1.7531,
+      "step": 1550
+    },
+    {
+      "epoch": 1.55,
+      "eval_loss": 1.7988600730895996,
+      "eval_runtime": 146.8067,
+      "eval_samples_per_second": 6.812,
+      "eval_steps_per_second": 1.703,
+      "step": 1550
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 10.925795555114746,
+      "learning_rate": 2.88e-05,
+      "loss": 1.9658,
+      "step": 1560
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 1.7972372770309448,
+      "eval_runtime": 139.3218,
+      "eval_samples_per_second": 7.178,
+      "eval_steps_per_second": 1.794,
+      "step": 1560
+    },
+    {
+      "epoch": 1.5699999999999998,
+      "grad_norm": 5.8058271408081055,
+      "learning_rate": 2.86e-05,
+      "loss": 1.7174,
+      "step": 1570
+    },
+    {
+      "epoch": 1.5699999999999998,
+      "eval_loss": 1.7915621995925903,
+      "eval_runtime": 128.6971,
+      "eval_samples_per_second": 7.77,
+      "eval_steps_per_second": 1.943,
+      "step": 1570
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 5.098724365234375,
+      "learning_rate": 2.84e-05,
+      "loss": 1.5216,
+      "step": 1580
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 1.7929859161376953,
+      "eval_runtime": 147.7,
+      "eval_samples_per_second": 6.77,
+      "eval_steps_per_second": 1.693,
+      "step": 1580
+    },
+    {
+      "epoch": 1.5899999999999999,
+      "grad_norm": 5.371964454650879,
+      "learning_rate": 2.8199999999999998e-05,
+      "loss": 1.7362,
+      "step": 1590
+    },
+    {
+      "epoch": 1.5899999999999999,
+      "eval_loss": 1.7911442518234253,
+      "eval_runtime": 163.4413,
+      "eval_samples_per_second": 6.118,
+      "eval_steps_per_second": 1.53,
+      "step": 1590
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 11.085586547851562,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 1.866,
+      "step": 1600
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.7892712354660034,
+      "eval_runtime": 140.8786,
+      "eval_samples_per_second": 7.098,
+      "eval_steps_per_second": 1.775,
+      "step": 1600
+    },
+    {
+      "epoch": 1.6099999999999999,
+      "grad_norm": 6.125006675720215,
+      "learning_rate": 2.7800000000000005e-05,
+      "loss": 1.6734,
+      "step": 1610
+    },
+    {
+      "epoch": 1.6099999999999999,
+      "eval_loss": 1.7879585027694702,
+      "eval_runtime": 151.484,
+      "eval_samples_per_second": 6.601,
+      "eval_steps_per_second": 1.65,
+      "step": 1610
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 5.7702202796936035,
+      "learning_rate": 2.7600000000000003e-05,
+      "loss": 1.5737,
+      "step": 1620
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 1.784743309020996,
+      "eval_runtime": 149.681,
+      "eval_samples_per_second": 6.681,
+      "eval_steps_per_second": 1.67,
+      "step": 1620
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 8.718552589416504,
+      "learning_rate": 2.7400000000000002e-05,
+      "loss": 1.5957,
+      "step": 1630
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 1.7875487804412842,
+      "eval_runtime": 131.254,
+      "eval_samples_per_second": 7.619,
+      "eval_steps_per_second": 1.905,
+      "step": 1630
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "grad_norm": 7.785655498504639,
+      "learning_rate": 2.7200000000000004e-05,
+      "loss": 1.7956,
+      "step": 1640
+    },
+    {
+      "epoch": 1.6400000000000001,
+      "eval_loss": 1.7841577529907227,
+      "eval_runtime": 141.0508,
+      "eval_samples_per_second": 7.09,
+      "eval_steps_per_second": 1.772,
+      "step": 1640
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 8.244903564453125,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 1.5131,
+      "step": 1650
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 1.7864689826965332,
+      "eval_runtime": 153.0649,
+      "eval_samples_per_second": 6.533,
+      "eval_steps_per_second": 1.633,
+      "step": 1650
+    },
+    {
+      "epoch": 1.6600000000000001,
+      "grad_norm": 9.530441284179688,
+      "learning_rate": 2.6800000000000004e-05,
+      "loss": 1.5239,
+      "step": 1660
+    },
+    {
+      "epoch": 1.6600000000000001,
+      "eval_loss": 1.7876701354980469,
+      "eval_runtime": 154.2237,
+      "eval_samples_per_second": 6.484,
+      "eval_steps_per_second": 1.621,
+      "step": 1660
+    },
+    {
+      "epoch": 1.67,
+      "grad_norm": 7.262298583984375,
+      "learning_rate": 2.6600000000000003e-05,
+      "loss": 1.7847,
+      "step": 1670
+    },
+    {
+      "epoch": 1.67,
+      "eval_loss": 1.7802685499191284,
+      "eval_runtime": 146.4116,
+      "eval_samples_per_second": 6.83,
+      "eval_steps_per_second": 1.708,
+      "step": 1670
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 5.070998668670654,
+      "learning_rate": 2.64e-05,
+      "loss": 1.9444,
+      "step": 1680
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "eval_loss": 1.779894232749939,
+      "eval_runtime": 135.7223,
+      "eval_samples_per_second": 7.368,
+      "eval_steps_per_second": 1.842,
+      "step": 1680
+    },
+    {
+      "epoch": 1.69,
+      "grad_norm": 8.932817459106445,
+      "learning_rate": 2.6200000000000003e-05,
+      "loss": 1.7473,
+      "step": 1690
+    },
+    {
+      "epoch": 1.69,
+      "eval_loss": 1.7891018390655518,
+      "eval_runtime": 133.6805,
+      "eval_samples_per_second": 7.481,
+      "eval_steps_per_second": 1.87,
+      "step": 1690
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 7.791315078735352,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 1.6432,
+      "step": 1700
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 1.7791037559509277,
+      "eval_runtime": 156.5434,
+      "eval_samples_per_second": 6.388,
+      "eval_steps_per_second": 1.597,
+      "step": 1700
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 6.859830379486084,
+      "learning_rate": 2.58e-05,
+      "loss": 1.6596,
+      "step": 1710
+    },
+    {
+      "epoch": 1.71,
+      "eval_loss": 1.7749369144439697,
+      "eval_runtime": 156.7103,
+      "eval_samples_per_second": 6.381,
+      "eval_steps_per_second": 1.595,
+      "step": 1710
+    },
+    {
+      "epoch": 1.72,
+      "grad_norm": 4.347317695617676,
+      "learning_rate": 2.5600000000000002e-05,
+      "loss": 1.3664,
+      "step": 1720
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 1.7769114971160889,
+      "eval_runtime": 151.4431,
+      "eval_samples_per_second": 6.603,
+      "eval_steps_per_second": 1.651,
+      "step": 1720
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 8.920775413513184,
+      "learning_rate": 2.54e-05,
+      "loss": 1.7536,
+      "step": 1730
+    },
+    {
+      "epoch": 1.73,
+      "eval_loss": 1.779599905014038,
+      "eval_runtime": 171.3944,
+      "eval_samples_per_second": 5.834,
+      "eval_steps_per_second": 1.459,
+      "step": 1730
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 9.783912658691406,
+      "learning_rate": 2.5200000000000003e-05,
+      "loss": 1.9861,
+      "step": 1740
+    },
+    {
+      "epoch": 1.74,
+      "eval_loss": 1.7734276056289673,
+      "eval_runtime": 155.338,
+      "eval_samples_per_second": 6.438,
+      "eval_steps_per_second": 1.609,
+      "step": 1740
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 6.196943759918213,
+      "learning_rate": 2.5e-05,
+      "loss": 1.8841,
+      "step": 1750
+    },
+    {
+      "epoch": 1.75,
+      "eval_loss": 1.7724976539611816,
+      "eval_runtime": 158.7667,
+      "eval_samples_per_second": 6.299,
+      "eval_steps_per_second": 1.575,
+      "step": 1750
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 5.560904502868652,
+      "learning_rate": 2.48e-05,
+      "loss": 1.7785,
+      "step": 1760
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 1.7708581686019897,
+      "eval_runtime": 143.0319,
+      "eval_samples_per_second": 6.991,
+      "eval_steps_per_second": 1.748,
+      "step": 1760
+    },
+    {
+      "epoch": 1.77,
+      "grad_norm": 6.589326858520508,
+      "learning_rate": 2.46e-05,
+      "loss": 1.7063,
+      "step": 1770
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 1.7703443765640259,
+      "eval_runtime": 145.0987,
+      "eval_samples_per_second": 6.892,
+      "eval_steps_per_second": 1.723,
+      "step": 1770
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 8.978352546691895,
+      "learning_rate": 2.44e-05,
+      "loss": 2.0151,
+      "step": 1780
+    },
+    {
+      "epoch": 1.78,
+      "eval_loss": 1.7695786952972412,
+      "eval_runtime": 151.0921,
+      "eval_samples_per_second": 6.618,
+      "eval_steps_per_second": 1.655,
+      "step": 1780
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 8.987360000610352,
+      "learning_rate": 2.4200000000000002e-05,
+      "loss": 1.5089,
+      "step": 1790
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 1.768951177597046,
+      "eval_runtime": 156.8603,
+      "eval_samples_per_second": 6.375,
+      "eval_steps_per_second": 1.594,
+      "step": 1790
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 7.1296186447143555,
+      "learning_rate": 2.4e-05,
+      "loss": 1.7401,
+      "step": 1800
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 1.7716623544692993,
+      "eval_runtime": 157.509,
+      "eval_samples_per_second": 6.349,
+      "eval_steps_per_second": 1.587,
+      "step": 1800
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 10.590949058532715,
+      "learning_rate": 2.38e-05,
+      "loss": 1.7703,
+      "step": 1810
+    },
+    {
+      "epoch": 1.81,
+      "eval_loss": 1.7669039964675903,
+      "eval_runtime": 142.8584,
+      "eval_samples_per_second": 7.0,
+      "eval_steps_per_second": 1.75,
+      "step": 1810
+    },
+    {
+      "epoch": 1.8199999999999998,
+      "grad_norm": 7.991542339324951,
+      "learning_rate": 2.36e-05,
+      "loss": 2.0104,
+      "step": 1820
+    },
+    {
+      "epoch": 1.8199999999999998,
+      "eval_loss": 1.7663322687149048,
+      "eval_runtime": 145.2675,
+      "eval_samples_per_second": 6.884,
+      "eval_steps_per_second": 1.721,
+      "step": 1820
+    },
+    {
+      "epoch": 1.83,
+      "grad_norm": 7.469418525695801,
+      "learning_rate": 2.3400000000000003e-05,
+      "loss": 1.9194,
+      "step": 1830
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 1.76361083984375,
+      "eval_runtime": 139.8496,
+      "eval_samples_per_second": 7.151,
+      "eval_steps_per_second": 1.788,
+      "step": 1830
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 8.684300422668457,
+      "learning_rate": 2.32e-05,
+      "loss": 1.7216,
+      "step": 1840
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "eval_loss": 1.764965295791626,
+      "eval_runtime": 124.8219,
+      "eval_samples_per_second": 8.011,
+      "eval_steps_per_second": 2.003,
+      "step": 1840
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 6.893486976623535,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 1.7436,
+      "step": 1850
+    },
+    {
+      "epoch": 1.85,
+      "eval_loss": 1.7624765634536743,
+      "eval_runtime": 151.3283,
+      "eval_samples_per_second": 6.608,
+      "eval_steps_per_second": 1.652,
+      "step": 1850
+    },
+    {
+      "epoch": 1.8599999999999999,
+      "grad_norm": 7.313007354736328,
+      "learning_rate": 2.2800000000000002e-05,
+      "loss": 1.8161,
+      "step": 1860
+    },
+    {
+      "epoch": 1.8599999999999999,
+      "eval_loss": 1.759124994277954,
+      "eval_runtime": 155.9019,
+      "eval_samples_per_second": 6.414,
+      "eval_steps_per_second": 1.604,
+      "step": 1860
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 6.408918857574463,
+      "learning_rate": 2.26e-05,
+      "loss": 1.8378,
+      "step": 1870
+    },
+    {
+      "epoch": 1.87,
+      "eval_loss": 1.7628072500228882,
+      "eval_runtime": 132.3341,
+      "eval_samples_per_second": 7.557,
+      "eval_steps_per_second": 1.889,
+      "step": 1870
+    },
+    {
+      "epoch": 1.88,
+      "grad_norm": 6.225015163421631,
+      "learning_rate": 2.2400000000000002e-05,
+      "loss": 1.7146,
+      "step": 1880
+    },
+    {
+      "epoch": 1.88,
+      "eval_loss": 1.7633777856826782,
+      "eval_runtime": 130.7812,
+      "eval_samples_per_second": 7.646,
+      "eval_steps_per_second": 1.912,
+      "step": 1880
+    },
+    {
+      "epoch": 1.8900000000000001,
+      "grad_norm": 1.981947898864746,
+      "learning_rate": 2.22e-05,
+      "loss": 1.6352,
+      "step": 1890
+    },
+    {
+      "epoch": 1.8900000000000001,
+      "eval_loss": 1.7599279880523682,
+      "eval_runtime": 117.9616,
+      "eval_samples_per_second": 8.477,
+      "eval_steps_per_second": 2.119,
+      "step": 1890
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 7.133483409881592,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 1.9264,
+      "step": 1900
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 1.7584002017974854,
+      "eval_runtime": 109.1257,
+      "eval_samples_per_second": 9.164,
+      "eval_steps_per_second": 2.291,
+      "step": 1900
+    },
+    {
+      "epoch": 1.9100000000000001,
+      "grad_norm": 3.5345520973205566,
+      "learning_rate": 2.18e-05,
+      "loss": 1.2704,
+      "step": 1910
+    },
+    {
+      "epoch": 1.9100000000000001,
+      "eval_loss": 1.7551823854446411,
+      "eval_runtime": 129.6678,
+      "eval_samples_per_second": 7.712,
+      "eval_steps_per_second": 1.928,
+      "step": 1910
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 8.16379451751709,
+      "learning_rate": 2.16e-05,
+      "loss": 1.5037,
+      "step": 1920
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 1.7550432682037354,
+      "eval_runtime": 107.3423,
+      "eval_samples_per_second": 9.316,
+      "eval_steps_per_second": 2.329,
+      "step": 1920
+    },
+    {
+      "epoch": 1.9300000000000002,
+      "grad_norm": 5.34440803527832,
+      "learning_rate": 2.1400000000000002e-05,
+      "loss": 1.5265,
+      "step": 1930
+    },
+    {
+      "epoch": 1.9300000000000002,
+      "eval_loss": 1.7561466693878174,
+      "eval_runtime": 106.8984,
+      "eval_samples_per_second": 9.355,
+      "eval_steps_per_second": 2.339,
+      "step": 1930
+    },
+    {
+      "epoch": 1.94,
+      "grad_norm": 7.982861042022705,
+      "learning_rate": 2.12e-05,
+      "loss": 1.5862,
+      "step": 1940
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 1.7594772577285767,
+      "eval_runtime": 101.5387,
+      "eval_samples_per_second": 9.848,
+      "eval_steps_per_second": 2.462,
+      "step": 1940
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 6.90481424331665,
+      "learning_rate": 2.1e-05,
+      "loss": 1.6048,
+      "step": 1950
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 1.7539196014404297,
+      "eval_runtime": 105.056,
+      "eval_samples_per_second": 9.519,
+      "eval_steps_per_second": 2.38,
+      "step": 1950
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 5.775398254394531,
+      "learning_rate": 2.08e-05,
+      "loss": 1.572,
+      "step": 1960
+    },
+    {
+      "epoch": 1.96,
+      "eval_loss": 1.750312328338623,
+      "eval_runtime": 111.7724,
+      "eval_samples_per_second": 8.947,
+      "eval_steps_per_second": 2.237,
+      "step": 1960
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 6.477075099945068,
+      "learning_rate": 2.06e-05,
+      "loss": 1.8335,
+      "step": 1970
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 1.7535051107406616,
+      "eval_runtime": 125.6752,
+      "eval_samples_per_second": 7.957,
+      "eval_steps_per_second": 1.989,
+      "step": 1970
+    },
+    {
+      "epoch": 1.98,
+      "grad_norm": 6.374350547790527,
+      "learning_rate": 2.04e-05,
+      "loss": 1.8152,
+      "step": 1980
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 1.7487550973892212,
+      "eval_runtime": 137.3756,
+      "eval_samples_per_second": 7.279,
+      "eval_steps_per_second": 1.82,
+      "step": 1980
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 6.992517948150635,
+      "learning_rate": 2.0200000000000003e-05,
+      "loss": 1.7704,
+      "step": 1990
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 1.7500554323196411,
+      "eval_runtime": 145.872,
+      "eval_samples_per_second": 6.855,
+      "eval_steps_per_second": 1.714,
+      "step": 1990
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 6.812110424041748,
+      "learning_rate": 2e-05,
+      "loss": 1.967,
+      "step": 2000
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.7480344772338867,
+      "eval_runtime": 152.2467,
+      "eval_samples_per_second": 6.568,
+      "eval_steps_per_second": 1.642,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 3000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 522584064000000.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

fine_tuned_gpt2/checkpoint-2500/config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "_name_or_path": "/Users/user/projects/MindPadiBig/mindpadi/models/gpt2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

fine_tuned_gpt2/checkpoint-2500/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}