{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 22.22222222222222, "eval_steps": 500, "global_step": 800, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.027777777777777776, "grad_norm": 0.20311205089092255, "learning_rate": 0.0, "loss": 4.4915, "step": 1 }, { "epoch": 0.05555555555555555, "grad_norm": 0.2131088674068451, "learning_rate": 4e-05, "loss": 4.5163, "step": 2 }, { "epoch": 0.08333333333333333, "grad_norm": 0.20212164521217346, "learning_rate": 8e-05, "loss": 4.4983, "step": 3 }, { "epoch": 0.1111111111111111, "grad_norm": 0.2294992059469223, "learning_rate": 0.00012, "loss": 4.5285, "step": 4 }, { "epoch": 0.1388888888888889, "grad_norm": 0.24472662806510925, "learning_rate": 0.00016, "loss": 4.4403, "step": 5 }, { "epoch": 0.16666666666666666, "grad_norm": 0.29603591561317444, "learning_rate": 0.0002, "loss": 4.4026, "step": 6 }, { "epoch": 0.19444444444444445, "grad_norm": 0.25345948338508606, "learning_rate": 0.00019979899497487438, "loss": 4.2619, "step": 7 }, { "epoch": 0.2222222222222222, "grad_norm": 0.20336444675922394, "learning_rate": 0.00019959798994974876, "loss": 4.3414, "step": 8 }, { "epoch": 0.25, "grad_norm": 0.20476382970809937, "learning_rate": 0.00019939698492462313, "loss": 4.3672, "step": 9 }, { "epoch": 0.2777777777777778, "grad_norm": 0.2697058320045471, "learning_rate": 0.0001991959798994975, "loss": 4.4461, "step": 10 }, { "epoch": 0.3055555555555556, "grad_norm": 0.3068998456001282, "learning_rate": 0.00019899497487437187, "loss": 4.3504, "step": 11 }, { "epoch": 0.3333333333333333, "grad_norm": 0.2579866647720337, "learning_rate": 0.00019879396984924622, "loss": 4.3282, "step": 12 }, { "epoch": 0.3611111111111111, "grad_norm": 0.23932969570159912, "learning_rate": 0.00019859296482412062, "loss": 4.314, "step": 13 }, { "epoch": 0.3888888888888889, "grad_norm": 0.17256039381027222, "learning_rate": 0.000198391959798995, "loss": 4.1623, "step": 14 }, { "epoch": 0.4166666666666667, "grad_norm": 0.14058035612106323, "learning_rate": 0.00019819095477386937, "loss": 4.2599, "step": 15 }, { "epoch": 0.4444444444444444, "grad_norm": 0.13626347482204437, "learning_rate": 0.0001979899497487437, "loss": 4.2785, "step": 16 }, { "epoch": 0.4722222222222222, "grad_norm": 0.15597642958164215, "learning_rate": 0.0001977889447236181, "loss": 4.2141, "step": 17 }, { "epoch": 0.5, "grad_norm": 0.16259461641311646, "learning_rate": 0.00019758793969849249, "loss": 4.1865, "step": 18 }, { "epoch": 0.5277777777777778, "grad_norm": 0.17488960921764374, "learning_rate": 0.00019738693467336683, "loss": 4.1752, "step": 19 }, { "epoch": 0.5555555555555556, "grad_norm": 0.1713181883096695, "learning_rate": 0.0001971859296482412, "loss": 4.2038, "step": 20 }, { "epoch": 0.5833333333333334, "grad_norm": 0.1661016047000885, "learning_rate": 0.0001969849246231156, "loss": 4.2774, "step": 21 }, { "epoch": 0.6111111111111112, "grad_norm": 0.16846051812171936, "learning_rate": 0.00019678391959798995, "loss": 4.1554, "step": 22 }, { "epoch": 0.6388888888888888, "grad_norm": 0.17551535367965698, "learning_rate": 0.00019658291457286432, "loss": 4.1965, "step": 23 }, { "epoch": 0.6666666666666666, "grad_norm": 0.18236367404460907, "learning_rate": 0.0001963819095477387, "loss": 4.1287, "step": 24 }, { "epoch": 0.6944444444444444, "grad_norm": 0.16493619978427887, "learning_rate": 0.0001961809045226131, "loss": 4.1306, "step": 25 }, { "epoch": 0.7222222222222222, "grad_norm": 0.19582757353782654, "learning_rate": 0.00019597989949748744, "loss": 4.1377, "step": 26 }, { "epoch": 0.75, "grad_norm": 0.19947072863578796, "learning_rate": 0.00019577889447236181, "loss": 4.0834, "step": 27 }, { "epoch": 0.7777777777777778, "grad_norm": 0.18614250421524048, "learning_rate": 0.0001955778894472362, "loss": 4.1198, "step": 28 }, { "epoch": 0.8055555555555556, "grad_norm": 0.20694276690483093, "learning_rate": 0.00019537688442211056, "loss": 4.0579, "step": 29 }, { "epoch": 0.8333333333333334, "grad_norm": 0.22351165115833282, "learning_rate": 0.00019517587939698493, "loss": 3.9895, "step": 30 }, { "epoch": 0.8611111111111112, "grad_norm": 0.23021432757377625, "learning_rate": 0.0001949748743718593, "loss": 4.1024, "step": 31 }, { "epoch": 0.8888888888888888, "grad_norm": 0.24481208622455597, "learning_rate": 0.00019477386934673368, "loss": 3.9964, "step": 32 }, { "epoch": 0.9166666666666666, "grad_norm": 0.2923925817012787, "learning_rate": 0.00019457286432160805, "loss": 4.226, "step": 33 }, { "epoch": 0.9444444444444444, "grad_norm": 0.20453491806983948, "learning_rate": 0.00019437185929648243, "loss": 4.0509, "step": 34 }, { "epoch": 0.9722222222222222, "grad_norm": 0.21465256810188293, "learning_rate": 0.0001941708542713568, "loss": 4.0035, "step": 35 }, { "epoch": 1.0, "grad_norm": 0.22793523967266083, "learning_rate": 0.00019396984924623117, "loss": 3.9318, "step": 36 }, { "epoch": 1.0277777777777777, "grad_norm": 0.22474569082260132, "learning_rate": 0.00019376884422110552, "loss": 3.8249, "step": 37 }, { "epoch": 1.0555555555555556, "grad_norm": 0.22445383667945862, "learning_rate": 0.00019356783919597992, "loss": 3.9561, "step": 38 }, { "epoch": 1.0833333333333333, "grad_norm": 0.3357506990432739, "learning_rate": 0.0001933668341708543, "loss": 3.9129, "step": 39 }, { "epoch": 1.1111111111111112, "grad_norm": 0.20499584078788757, "learning_rate": 0.00019316582914572864, "loss": 3.9039, "step": 40 }, { "epoch": 1.1388888888888888, "grad_norm": 0.21849706768989563, "learning_rate": 0.000192964824120603, "loss": 3.8894, "step": 41 }, { "epoch": 1.1666666666666667, "grad_norm": 0.2238249033689499, "learning_rate": 0.0001927638190954774, "loss": 3.935, "step": 42 }, { "epoch": 1.1944444444444444, "grad_norm": 0.2265356332063675, "learning_rate": 0.00019256281407035178, "loss": 3.9207, "step": 43 }, { "epoch": 1.2222222222222223, "grad_norm": 0.21818187832832336, "learning_rate": 0.00019236180904522613, "loss": 3.8675, "step": 44 }, { "epoch": 1.25, "grad_norm": 0.26382309198379517, "learning_rate": 0.0001921608040201005, "loss": 3.8438, "step": 45 }, { "epoch": 1.2777777777777777, "grad_norm": 0.27609023451805115, "learning_rate": 0.0001919597989949749, "loss": 3.8533, "step": 46 }, { "epoch": 1.3055555555555556, "grad_norm": 0.27129438519477844, "learning_rate": 0.00019175879396984925, "loss": 4.0234, "step": 47 }, { "epoch": 1.3333333333333333, "grad_norm": 0.2525874972343445, "learning_rate": 0.00019155778894472362, "loss": 3.8745, "step": 48 }, { "epoch": 1.3611111111111112, "grad_norm": 0.27753037214279175, "learning_rate": 0.000191356783919598, "loss": 3.8015, "step": 49 }, { "epoch": 1.3888888888888888, "grad_norm": 0.23520022630691528, "learning_rate": 0.0001911557788944724, "loss": 3.9915, "step": 50 }, { "epoch": 1.4166666666666667, "grad_norm": 0.2572794556617737, "learning_rate": 0.00019095477386934674, "loss": 3.9971, "step": 51 }, { "epoch": 1.4444444444444444, "grad_norm": 0.29300835728645325, "learning_rate": 0.0001907537688442211, "loss": 3.8298, "step": 52 }, { "epoch": 1.4722222222222223, "grad_norm": 0.31914082169532776, "learning_rate": 0.00019055276381909548, "loss": 3.9329, "step": 53 }, { "epoch": 1.5, "grad_norm": 0.29061588644981384, "learning_rate": 0.00019035175879396986, "loss": 3.8024, "step": 54 }, { "epoch": 1.5277777777777777, "grad_norm": 0.2548382878303528, "learning_rate": 0.00019015075376884423, "loss": 3.8768, "step": 55 }, { "epoch": 1.5555555555555556, "grad_norm": 0.29365795850753784, "learning_rate": 0.0001899497487437186, "loss": 3.7646, "step": 56 }, { "epoch": 1.5833333333333335, "grad_norm": 0.25567951798439026, "learning_rate": 0.00018974874371859298, "loss": 3.8804, "step": 57 }, { "epoch": 1.6111111111111112, "grad_norm": 0.3063550591468811, "learning_rate": 0.00018954773869346732, "loss": 3.894, "step": 58 }, { "epoch": 1.6388888888888888, "grad_norm": 0.3201877474784851, "learning_rate": 0.00018934673366834172, "loss": 3.8619, "step": 59 }, { "epoch": 1.6666666666666665, "grad_norm": 0.28174227476119995, "learning_rate": 0.0001891457286432161, "loss": 3.8783, "step": 60 }, { "epoch": 1.6944444444444444, "grad_norm": 0.2862309217453003, "learning_rate": 0.00018894472361809047, "loss": 3.9326, "step": 61 }, { "epoch": 1.7222222222222223, "grad_norm": 0.2849006652832031, "learning_rate": 0.00018874371859296481, "loss": 3.8343, "step": 62 }, { "epoch": 1.75, "grad_norm": 0.2627430856227875, "learning_rate": 0.00018854271356783921, "loss": 3.9391, "step": 63 }, { "epoch": 1.7777777777777777, "grad_norm": 0.2760339677333832, "learning_rate": 0.0001883417085427136, "loss": 3.8497, "step": 64 }, { "epoch": 1.8055555555555556, "grad_norm": 0.3186602294445038, "learning_rate": 0.00018814070351758793, "loss": 3.8836, "step": 65 }, { "epoch": 1.8333333333333335, "grad_norm": 0.3278821110725403, "learning_rate": 0.0001879396984924623, "loss": 3.7149, "step": 66 }, { "epoch": 1.8611111111111112, "grad_norm": 0.3356722593307495, "learning_rate": 0.0001877386934673367, "loss": 3.7348, "step": 67 }, { "epoch": 1.8888888888888888, "grad_norm": 0.2884039282798767, "learning_rate": 0.00018753768844221108, "loss": 3.8341, "step": 68 }, { "epoch": 1.9166666666666665, "grad_norm": 0.3120921552181244, "learning_rate": 0.00018733668341708543, "loss": 3.8439, "step": 69 }, { "epoch": 1.9444444444444444, "grad_norm": 0.30028048157691956, "learning_rate": 0.0001871356783919598, "loss": 3.8061, "step": 70 }, { "epoch": 1.9722222222222223, "grad_norm": 0.3395099937915802, "learning_rate": 0.0001869346733668342, "loss": 3.743, "step": 71 }, { "epoch": 2.0, "grad_norm": 0.27953222393989563, "learning_rate": 0.00018673366834170854, "loss": 3.8557, "step": 72 }, { "epoch": 2.0277777777777777, "grad_norm": 0.3639427125453949, "learning_rate": 0.00018653266331658292, "loss": 3.5822, "step": 73 }, { "epoch": 2.0555555555555554, "grad_norm": 0.33512142300605774, "learning_rate": 0.0001863316582914573, "loss": 3.6519, "step": 74 }, { "epoch": 2.0833333333333335, "grad_norm": 0.3240562379360199, "learning_rate": 0.0001861306532663317, "loss": 3.6935, "step": 75 }, { "epoch": 2.111111111111111, "grad_norm": 0.3161107003688812, "learning_rate": 0.00018592964824120604, "loss": 3.5002, "step": 76 }, { "epoch": 2.138888888888889, "grad_norm": 0.3361085057258606, "learning_rate": 0.0001857286432160804, "loss": 3.6367, "step": 77 }, { "epoch": 2.1666666666666665, "grad_norm": 0.352273553609848, "learning_rate": 0.00018552763819095478, "loss": 3.5711, "step": 78 }, { "epoch": 2.1944444444444446, "grad_norm": 0.44461965560913086, "learning_rate": 0.00018532663316582915, "loss": 3.5904, "step": 79 }, { "epoch": 2.2222222222222223, "grad_norm": 0.39701783657073975, "learning_rate": 0.00018512562814070353, "loss": 3.5923, "step": 80 }, { "epoch": 2.25, "grad_norm": 0.41626784205436707, "learning_rate": 0.0001849246231155779, "loss": 3.6473, "step": 81 }, { "epoch": 2.2777777777777777, "grad_norm": 0.4541876018047333, "learning_rate": 0.00018472361809045227, "loss": 3.8951, "step": 82 }, { "epoch": 2.3055555555555554, "grad_norm": 0.404880553483963, "learning_rate": 0.00018452261306532662, "loss": 3.5763, "step": 83 }, { "epoch": 2.3333333333333335, "grad_norm": 0.40510082244873047, "learning_rate": 0.00018432160804020102, "loss": 3.5237, "step": 84 }, { "epoch": 2.361111111111111, "grad_norm": 0.43531498312950134, "learning_rate": 0.0001841206030150754, "loss": 3.5037, "step": 85 }, { "epoch": 2.388888888888889, "grad_norm": 0.3977891802787781, "learning_rate": 0.00018391959798994977, "loss": 3.7087, "step": 86 }, { "epoch": 2.4166666666666665, "grad_norm": 0.4330153167247772, "learning_rate": 0.0001837185929648241, "loss": 3.5094, "step": 87 }, { "epoch": 2.4444444444444446, "grad_norm": 0.43201199173927307, "learning_rate": 0.0001835175879396985, "loss": 3.5359, "step": 88 }, { "epoch": 2.4722222222222223, "grad_norm": 0.35238757729530334, "learning_rate": 0.00018331658291457288, "loss": 3.6201, "step": 89 }, { "epoch": 2.5, "grad_norm": 0.4111977219581604, "learning_rate": 0.00018311557788944723, "loss": 3.7779, "step": 90 }, { "epoch": 2.5277777777777777, "grad_norm": 0.41051429510116577, "learning_rate": 0.0001829145728643216, "loss": 3.6268, "step": 91 }, { "epoch": 2.5555555555555554, "grad_norm": 0.41777321696281433, "learning_rate": 0.000182713567839196, "loss": 3.6971, "step": 92 }, { "epoch": 2.5833333333333335, "grad_norm": 0.4245418608188629, "learning_rate": 0.00018251256281407038, "loss": 3.573, "step": 93 }, { "epoch": 2.611111111111111, "grad_norm": 0.3915439248085022, "learning_rate": 0.00018231155778894472, "loss": 3.6586, "step": 94 }, { "epoch": 2.638888888888889, "grad_norm": 0.35693907737731934, "learning_rate": 0.0001821105527638191, "loss": 3.6286, "step": 95 }, { "epoch": 2.6666666666666665, "grad_norm": 0.4147288203239441, "learning_rate": 0.0001819095477386935, "loss": 3.6582, "step": 96 }, { "epoch": 2.6944444444444446, "grad_norm": 0.5182348489761353, "learning_rate": 0.00018170854271356784, "loss": 3.4388, "step": 97 }, { "epoch": 2.7222222222222223, "grad_norm": 0.35436728596687317, "learning_rate": 0.00018150753768844221, "loss": 3.6949, "step": 98 }, { "epoch": 2.75, "grad_norm": 0.4503469169139862, "learning_rate": 0.0001813065326633166, "loss": 3.6215, "step": 99 }, { "epoch": 2.7777777777777777, "grad_norm": 0.44680655002593994, "learning_rate": 0.00018110552763819096, "loss": 3.683, "step": 100 }, { "epoch": 2.8055555555555554, "grad_norm": 0.4246615469455719, "learning_rate": 0.00018090452261306533, "loss": 3.5577, "step": 101 }, { "epoch": 2.8333333333333335, "grad_norm": 0.4415726065635681, "learning_rate": 0.0001807035175879397, "loss": 3.6653, "step": 102 }, { "epoch": 2.861111111111111, "grad_norm": 0.41269606351852417, "learning_rate": 0.00018050251256281408, "loss": 3.6109, "step": 103 }, { "epoch": 2.888888888888889, "grad_norm": 0.4815980792045593, "learning_rate": 0.00018030150753768845, "loss": 3.5872, "step": 104 }, { "epoch": 2.9166666666666665, "grad_norm": 0.35298672318458557, "learning_rate": 0.00018010050251256282, "loss": 3.7024, "step": 105 }, { "epoch": 2.9444444444444446, "grad_norm": 0.4344056248664856, "learning_rate": 0.0001798994974874372, "loss": 3.5418, "step": 106 }, { "epoch": 2.9722222222222223, "grad_norm": 0.4776579737663269, "learning_rate": 0.00017969849246231157, "loss": 3.8608, "step": 107 }, { "epoch": 3.0, "grad_norm": 0.4422092139720917, "learning_rate": 0.00017949748743718592, "loss": 3.5643, "step": 108 }, { "epoch": 3.0277777777777777, "grad_norm": 0.5337403416633606, "learning_rate": 0.00017929648241206032, "loss": 3.3729, "step": 109 }, { "epoch": 3.0555555555555554, "grad_norm": 0.5757706761360168, "learning_rate": 0.0001790954773869347, "loss": 3.2958, "step": 110 }, { "epoch": 3.0833333333333335, "grad_norm": 0.5816565155982971, "learning_rate": 0.00017889447236180906, "loss": 3.4245, "step": 111 }, { "epoch": 3.111111111111111, "grad_norm": 0.49250540137290955, "learning_rate": 0.0001786934673366834, "loss": 3.4114, "step": 112 }, { "epoch": 3.138888888888889, "grad_norm": 0.5763567090034485, "learning_rate": 0.0001784924623115578, "loss": 3.316, "step": 113 }, { "epoch": 3.1666666666666665, "grad_norm": 0.45727548003196716, "learning_rate": 0.00017829145728643218, "loss": 3.4834, "step": 114 }, { "epoch": 3.1944444444444446, "grad_norm": 0.5500859022140503, "learning_rate": 0.00017809045226130653, "loss": 3.378, "step": 115 }, { "epoch": 3.2222222222222223, "grad_norm": 0.5858424305915833, "learning_rate": 0.0001778894472361809, "loss": 3.4085, "step": 116 }, { "epoch": 3.25, "grad_norm": 0.5802602767944336, "learning_rate": 0.0001776884422110553, "loss": 3.2984, "step": 117 }, { "epoch": 3.2777777777777777, "grad_norm": 0.6817936897277832, "learning_rate": 0.00017748743718592967, "loss": 3.3752, "step": 118 }, { "epoch": 3.3055555555555554, "grad_norm": 0.6731468439102173, "learning_rate": 0.00017728643216080402, "loss": 3.2636, "step": 119 }, { "epoch": 3.3333333333333335, "grad_norm": 0.5917553305625916, "learning_rate": 0.0001770854271356784, "loss": 3.3508, "step": 120 }, { "epoch": 3.361111111111111, "grad_norm": 0.6085087656974792, "learning_rate": 0.0001768844221105528, "loss": 3.356, "step": 121 }, { "epoch": 3.388888888888889, "grad_norm": 0.6425222158432007, "learning_rate": 0.00017668341708542714, "loss": 3.2844, "step": 122 }, { "epoch": 3.4166666666666665, "grad_norm": 0.6296039819717407, "learning_rate": 0.0001764824120603015, "loss": 3.3506, "step": 123 }, { "epoch": 3.4444444444444446, "grad_norm": 0.6633849740028381, "learning_rate": 0.00017628140703517588, "loss": 3.486, "step": 124 }, { "epoch": 3.4722222222222223, "grad_norm": 0.6300838589668274, "learning_rate": 0.00017608040201005026, "loss": 3.2029, "step": 125 }, { "epoch": 3.5, "grad_norm": 0.517510175704956, "learning_rate": 0.00017587939698492463, "loss": 3.3137, "step": 126 }, { "epoch": 3.5277777777777777, "grad_norm": 0.590701699256897, "learning_rate": 0.000175678391959799, "loss": 3.3848, "step": 127 }, { "epoch": 3.5555555555555554, "grad_norm": 0.5056453943252563, "learning_rate": 0.00017547738693467338, "loss": 3.401, "step": 128 }, { "epoch": 3.5833333333333335, "grad_norm": 0.5973551273345947, "learning_rate": 0.00017527638190954775, "loss": 3.1837, "step": 129 }, { "epoch": 3.611111111111111, "grad_norm": 0.6245766878128052, "learning_rate": 0.00017507537688442212, "loss": 3.3238, "step": 130 }, { "epoch": 3.638888888888889, "grad_norm": 0.5725306272506714, "learning_rate": 0.0001748743718592965, "loss": 3.3485, "step": 131 }, { "epoch": 3.6666666666666665, "grad_norm": 0.6085231304168701, "learning_rate": 0.00017467336683417087, "loss": 3.337, "step": 132 }, { "epoch": 3.6944444444444446, "grad_norm": 0.5997536778450012, "learning_rate": 0.00017447236180904521, "loss": 3.3068, "step": 133 }, { "epoch": 3.7222222222222223, "grad_norm": 0.6551764607429504, "learning_rate": 0.00017427135678391961, "loss": 3.2709, "step": 134 }, { "epoch": 3.75, "grad_norm": 0.5395643711090088, "learning_rate": 0.000174070351758794, "loss": 3.4071, "step": 135 }, { "epoch": 3.7777777777777777, "grad_norm": 0.6078475117683411, "learning_rate": 0.00017386934673366836, "loss": 3.4403, "step": 136 }, { "epoch": 3.8055555555555554, "grad_norm": 0.593873143196106, "learning_rate": 0.0001736683417085427, "loss": 3.3895, "step": 137 }, { "epoch": 3.8333333333333335, "grad_norm": 0.6094743609428406, "learning_rate": 0.0001734673366834171, "loss": 3.33, "step": 138 }, { "epoch": 3.861111111111111, "grad_norm": 0.6115625500679016, "learning_rate": 0.00017326633165829148, "loss": 3.4017, "step": 139 }, { "epoch": 3.888888888888889, "grad_norm": 0.7252686023712158, "learning_rate": 0.00017306532663316582, "loss": 3.2414, "step": 140 }, { "epoch": 3.9166666666666665, "grad_norm": 0.5887686610221863, "learning_rate": 0.0001728643216080402, "loss": 3.4123, "step": 141 }, { "epoch": 3.9444444444444446, "grad_norm": 0.666621208190918, "learning_rate": 0.0001726633165829146, "loss": 3.4556, "step": 142 }, { "epoch": 3.9722222222222223, "grad_norm": 0.6329528093338013, "learning_rate": 0.00017246231155778897, "loss": 3.2347, "step": 143 }, { "epoch": 4.0, "grad_norm": 0.7147486209869385, "learning_rate": 0.00017226130653266332, "loss": 3.4441, "step": 144 }, { "epoch": 4.027777777777778, "grad_norm": 0.7460994720458984, "learning_rate": 0.0001720603015075377, "loss": 3.0517, "step": 145 }, { "epoch": 4.055555555555555, "grad_norm": 0.6914768218994141, "learning_rate": 0.00017185929648241206, "loss": 3.0457, "step": 146 }, { "epoch": 4.083333333333333, "grad_norm": 0.6942479610443115, "learning_rate": 0.00017165829145728644, "loss": 2.9453, "step": 147 }, { "epoch": 4.111111111111111, "grad_norm": 0.6808007955551147, "learning_rate": 0.0001714572864321608, "loss": 3.1229, "step": 148 }, { "epoch": 4.138888888888889, "grad_norm": 0.8311309814453125, "learning_rate": 0.00017125628140703518, "loss": 3.0901, "step": 149 }, { "epoch": 4.166666666666667, "grad_norm": 1.065160870552063, "learning_rate": 0.00017105527638190955, "loss": 2.9064, "step": 150 }, { "epoch": 4.194444444444445, "grad_norm": 0.9247815608978271, "learning_rate": 0.00017085427135678393, "loss": 2.9269, "step": 151 }, { "epoch": 4.222222222222222, "grad_norm": 1.079072117805481, "learning_rate": 0.0001706532663316583, "loss": 2.8203, "step": 152 }, { "epoch": 4.25, "grad_norm": 0.9659130573272705, "learning_rate": 0.00017045226130653267, "loss": 2.9264, "step": 153 }, { "epoch": 4.277777777777778, "grad_norm": 1.0567432641983032, "learning_rate": 0.00017025125628140705, "loss": 2.9058, "step": 154 }, { "epoch": 4.305555555555555, "grad_norm": 0.8477874994277954, "learning_rate": 0.00017005025125628142, "loss": 2.9864, "step": 155 }, { "epoch": 4.333333333333333, "grad_norm": 0.8106895685195923, "learning_rate": 0.0001698492462311558, "loss": 2.986, "step": 156 }, { "epoch": 4.361111111111111, "grad_norm": 0.8349099159240723, "learning_rate": 0.00016964824120603016, "loss": 2.9849, "step": 157 }, { "epoch": 4.388888888888889, "grad_norm": 0.7860897183418274, "learning_rate": 0.0001694472361809045, "loss": 3.0177, "step": 158 }, { "epoch": 4.416666666666667, "grad_norm": 0.8748743534088135, "learning_rate": 0.0001692462311557789, "loss": 2.9425, "step": 159 }, { "epoch": 4.444444444444445, "grad_norm": 0.8945735096931458, "learning_rate": 0.00016904522613065328, "loss": 2.9471, "step": 160 }, { "epoch": 4.472222222222222, "grad_norm": 0.9383635520935059, "learning_rate": 0.00016884422110552766, "loss": 2.9794, "step": 161 }, { "epoch": 4.5, "grad_norm": 0.9767205119132996, "learning_rate": 0.000168643216080402, "loss": 2.9629, "step": 162 }, { "epoch": 4.527777777777778, "grad_norm": 0.7983379364013672, "learning_rate": 0.0001684422110552764, "loss": 3.0193, "step": 163 }, { "epoch": 4.555555555555555, "grad_norm": 0.86117023229599, "learning_rate": 0.00016824120603015078, "loss": 3.0726, "step": 164 }, { "epoch": 4.583333333333333, "grad_norm": 0.8633269667625427, "learning_rate": 0.00016804020100502512, "loss": 2.811, "step": 165 }, { "epoch": 4.611111111111111, "grad_norm": 0.9083434343338013, "learning_rate": 0.0001678391959798995, "loss": 2.8345, "step": 166 }, { "epoch": 4.638888888888889, "grad_norm": 0.7923077344894409, "learning_rate": 0.0001676381909547739, "loss": 3.0692, "step": 167 }, { "epoch": 4.666666666666667, "grad_norm": 0.7191345691680908, "learning_rate": 0.00016743718592964827, "loss": 3.1818, "step": 168 }, { "epoch": 4.694444444444445, "grad_norm": 0.8221868872642517, "learning_rate": 0.0001672361809045226, "loss": 3.1118, "step": 169 }, { "epoch": 4.722222222222222, "grad_norm": 0.7538425326347351, "learning_rate": 0.00016703517587939699, "loss": 3.0446, "step": 170 }, { "epoch": 4.75, "grad_norm": 0.7701255679130554, "learning_rate": 0.00016683417085427136, "loss": 3.081, "step": 171 }, { "epoch": 4.777777777777778, "grad_norm": 0.9477696418762207, "learning_rate": 0.00016663316582914573, "loss": 2.9427, "step": 172 }, { "epoch": 4.805555555555555, "grad_norm": 0.7366076707839966, "learning_rate": 0.0001664321608040201, "loss": 3.1992, "step": 173 }, { "epoch": 4.833333333333333, "grad_norm": 0.8343384265899658, "learning_rate": 0.00016623115577889448, "loss": 3.0804, "step": 174 }, { "epoch": 4.861111111111111, "grad_norm": 0.8355030417442322, "learning_rate": 0.00016603015075376885, "loss": 3.0094, "step": 175 }, { "epoch": 4.888888888888889, "grad_norm": 0.8525857925415039, "learning_rate": 0.00016582914572864322, "loss": 3.1143, "step": 176 }, { "epoch": 4.916666666666667, "grad_norm": 0.8451412916183472, "learning_rate": 0.0001656281407035176, "loss": 2.9607, "step": 177 }, { "epoch": 4.944444444444445, "grad_norm": 0.803091824054718, "learning_rate": 0.00016542713567839197, "loss": 2.9456, "step": 178 }, { "epoch": 4.972222222222222, "grad_norm": 0.8598446249961853, "learning_rate": 0.00016522613065326634, "loss": 3.1131, "step": 179 }, { "epoch": 5.0, "grad_norm": 0.8926934599876404, "learning_rate": 0.00016502512562814072, "loss": 3.0032, "step": 180 }, { "epoch": 5.027777777777778, "grad_norm": 1.0299845933914185, "learning_rate": 0.0001648241206030151, "loss": 2.5568, "step": 181 }, { "epoch": 5.055555555555555, "grad_norm": 0.9563475251197815, "learning_rate": 0.00016462311557788946, "loss": 2.6219, "step": 182 }, { "epoch": 5.083333333333333, "grad_norm": 0.8806142210960388, "learning_rate": 0.0001644221105527638, "loss": 2.7535, "step": 183 }, { "epoch": 5.111111111111111, "grad_norm": 1.109560489654541, "learning_rate": 0.0001642211055276382, "loss": 2.502, "step": 184 }, { "epoch": 5.138888888888889, "grad_norm": 1.3860337734222412, "learning_rate": 0.00016402010050251258, "loss": 2.4617, "step": 185 }, { "epoch": 5.166666666666667, "grad_norm": 1.2733640670776367, "learning_rate": 0.00016381909547738695, "loss": 2.5493, "step": 186 }, { "epoch": 5.194444444444445, "grad_norm": 1.3901710510253906, "learning_rate": 0.0001636180904522613, "loss": 2.6354, "step": 187 }, { "epoch": 5.222222222222222, "grad_norm": 1.1623620986938477, "learning_rate": 0.0001634170854271357, "loss": 2.4204, "step": 188 }, { "epoch": 5.25, "grad_norm": 1.447058081626892, "learning_rate": 0.00016321608040201007, "loss": 2.3256, "step": 189 }, { "epoch": 5.277777777777778, "grad_norm": 1.3414032459259033, "learning_rate": 0.00016301507537688442, "loss": 2.7452, "step": 190 }, { "epoch": 5.305555555555555, "grad_norm": 1.1946669816970825, "learning_rate": 0.0001628140703517588, "loss": 2.5533, "step": 191 }, { "epoch": 5.333333333333333, "grad_norm": 1.2761532068252563, "learning_rate": 0.00016261306532663316, "loss": 2.5792, "step": 192 }, { "epoch": 5.361111111111111, "grad_norm": 1.2345712184906006, "learning_rate": 0.00016241206030150756, "loss": 2.7002, "step": 193 }, { "epoch": 5.388888888888889, "grad_norm": 1.0240707397460938, "learning_rate": 0.0001622110552763819, "loss": 2.7119, "step": 194 }, { "epoch": 5.416666666666667, "grad_norm": 1.1293376684188843, "learning_rate": 0.00016201005025125628, "loss": 2.3629, "step": 195 }, { "epoch": 5.444444444444445, "grad_norm": 1.2381047010421753, "learning_rate": 0.00016180904522613066, "loss": 2.6163, "step": 196 }, { "epoch": 5.472222222222222, "grad_norm": 1.215549111366272, "learning_rate": 0.00016160804020100503, "loss": 2.5214, "step": 197 }, { "epoch": 5.5, "grad_norm": 1.279171347618103, "learning_rate": 0.0001614070351758794, "loss": 2.2066, "step": 198 }, { "epoch": 5.527777777777778, "grad_norm": 1.2832729816436768, "learning_rate": 0.00016120603015075378, "loss": 2.4123, "step": 199 }, { "epoch": 5.555555555555555, "grad_norm": 1.0460712909698486, "learning_rate": 0.00016100502512562815, "loss": 2.6783, "step": 200 }, { "epoch": 5.583333333333333, "grad_norm": 1.3302704095840454, "learning_rate": 0.00016080402010050252, "loss": 2.2754, "step": 201 }, { "epoch": 5.611111111111111, "grad_norm": 1.2566578388214111, "learning_rate": 0.0001606030150753769, "loss": 2.5244, "step": 202 }, { "epoch": 5.638888888888889, "grad_norm": 1.4435170888900757, "learning_rate": 0.00016040201005025127, "loss": 2.5562, "step": 203 }, { "epoch": 5.666666666666667, "grad_norm": 1.235792875289917, "learning_rate": 0.00016020100502512564, "loss": 2.6571, "step": 204 }, { "epoch": 5.694444444444445, "grad_norm": 1.2201404571533203, "learning_rate": 0.00016, "loss": 2.5158, "step": 205 }, { "epoch": 5.722222222222222, "grad_norm": 1.089195966720581, "learning_rate": 0.00015979899497487439, "loss": 2.7973, "step": 206 }, { "epoch": 5.75, "grad_norm": 1.0850876569747925, "learning_rate": 0.00015959798994974876, "loss": 2.4263, "step": 207 }, { "epoch": 5.777777777777778, "grad_norm": 1.0813742876052856, "learning_rate": 0.0001593969849246231, "loss": 2.4736, "step": 208 }, { "epoch": 5.805555555555555, "grad_norm": 0.9776431918144226, "learning_rate": 0.0001591959798994975, "loss": 2.8132, "step": 209 }, { "epoch": 5.833333333333333, "grad_norm": 1.1648110151290894, "learning_rate": 0.00015899497487437188, "loss": 2.5437, "step": 210 }, { "epoch": 5.861111111111111, "grad_norm": 1.243752360343933, "learning_rate": 0.00015879396984924625, "loss": 2.5576, "step": 211 }, { "epoch": 5.888888888888889, "grad_norm": 1.1270365715026855, "learning_rate": 0.0001585929648241206, "loss": 2.6999, "step": 212 }, { "epoch": 5.916666666666667, "grad_norm": 1.057934284210205, "learning_rate": 0.000158391959798995, "loss": 2.6974, "step": 213 }, { "epoch": 5.944444444444445, "grad_norm": 1.0362069606781006, "learning_rate": 0.00015819095477386937, "loss": 2.6338, "step": 214 }, { "epoch": 5.972222222222222, "grad_norm": 1.0548392534255981, "learning_rate": 0.00015798994974874372, "loss": 2.5608, "step": 215 }, { "epoch": 6.0, "grad_norm": 1.1501940488815308, "learning_rate": 0.0001577889447236181, "loss": 2.615, "step": 216 }, { "epoch": 6.027777777777778, "grad_norm": 1.4835048913955688, "learning_rate": 0.00015758793969849246, "loss": 2.0126, "step": 217 }, { "epoch": 6.055555555555555, "grad_norm": 1.2219789028167725, "learning_rate": 0.00015738693467336686, "loss": 2.2368, "step": 218 }, { "epoch": 6.083333333333333, "grad_norm": 1.0390156507492065, "learning_rate": 0.0001571859296482412, "loss": 2.2836, "step": 219 }, { "epoch": 6.111111111111111, "grad_norm": 1.323576807975769, "learning_rate": 0.00015698492462311558, "loss": 2.2115, "step": 220 }, { "epoch": 6.138888888888889, "grad_norm": 1.4868348836898804, "learning_rate": 0.00015678391959798995, "loss": 2.0192, "step": 221 }, { "epoch": 6.166666666666667, "grad_norm": 1.5603288412094116, "learning_rate": 0.00015658291457286433, "loss": 1.7397, "step": 222 }, { "epoch": 6.194444444444445, "grad_norm": 1.3679884672164917, "learning_rate": 0.0001563819095477387, "loss": 2.1662, "step": 223 }, { "epoch": 6.222222222222222, "grad_norm": 1.6251596212387085, "learning_rate": 0.00015618090452261307, "loss": 2.2145, "step": 224 }, { "epoch": 6.25, "grad_norm": 1.570732593536377, "learning_rate": 0.00015597989949748745, "loss": 2.0437, "step": 225 }, { "epoch": 6.277777777777778, "grad_norm": 1.675058364868164, "learning_rate": 0.00015577889447236182, "loss": 1.9507, "step": 226 }, { "epoch": 6.305555555555555, "grad_norm": 1.4134851694107056, "learning_rate": 0.0001555778894472362, "loss": 2.0486, "step": 227 }, { "epoch": 6.333333333333333, "grad_norm": 1.4358594417572021, "learning_rate": 0.00015537688442211056, "loss": 2.122, "step": 228 }, { "epoch": 6.361111111111111, "grad_norm": 1.650614857673645, "learning_rate": 0.00015517587939698494, "loss": 1.9152, "step": 229 }, { "epoch": 6.388888888888889, "grad_norm": 1.9007116556167603, "learning_rate": 0.0001549748743718593, "loss": 2.0564, "step": 230 }, { "epoch": 6.416666666666667, "grad_norm": 1.5056346654891968, "learning_rate": 0.00015477386934673368, "loss": 1.7939, "step": 231 }, { "epoch": 6.444444444444445, "grad_norm": 1.8135082721710205, "learning_rate": 0.00015457286432160806, "loss": 1.9238, "step": 232 }, { "epoch": 6.472222222222222, "grad_norm": 1.5826550722122192, "learning_rate": 0.0001543718592964824, "loss": 2.0008, "step": 233 }, { "epoch": 6.5, "grad_norm": 1.4264723062515259, "learning_rate": 0.0001541708542713568, "loss": 2.1661, "step": 234 }, { "epoch": 6.527777777777778, "grad_norm": 1.5089142322540283, "learning_rate": 0.00015396984924623117, "loss": 2.1277, "step": 235 }, { "epoch": 6.555555555555555, "grad_norm": 1.4280571937561035, "learning_rate": 0.00015376884422110555, "loss": 1.9476, "step": 236 }, { "epoch": 6.583333333333333, "grad_norm": 1.6409248113632202, "learning_rate": 0.0001535678391959799, "loss": 1.948, "step": 237 }, { "epoch": 6.611111111111111, "grad_norm": 1.6568686962127686, "learning_rate": 0.00015336683417085427, "loss": 1.9856, "step": 238 }, { "epoch": 6.638888888888889, "grad_norm": 1.605013370513916, "learning_rate": 0.00015316582914572867, "loss": 1.9718, "step": 239 }, { "epoch": 6.666666666666667, "grad_norm": 1.4821271896362305, "learning_rate": 0.000152964824120603, "loss": 2.0235, "step": 240 }, { "epoch": 6.694444444444445, "grad_norm": 1.3870749473571777, "learning_rate": 0.00015276381909547739, "loss": 1.9503, "step": 241 }, { "epoch": 6.722222222222222, "grad_norm": 1.4376323223114014, "learning_rate": 0.00015256281407035176, "loss": 2.138, "step": 242 }, { "epoch": 6.75, "grad_norm": 1.7919225692749023, "learning_rate": 0.00015236180904522613, "loss": 1.7866, "step": 243 }, { "epoch": 6.777777777777778, "grad_norm": 1.262108325958252, "learning_rate": 0.0001521608040201005, "loss": 2.3241, "step": 244 }, { "epoch": 6.805555555555555, "grad_norm": 1.4858434200286865, "learning_rate": 0.00015195979899497488, "loss": 2.1126, "step": 245 }, { "epoch": 6.833333333333333, "grad_norm": 1.484850287437439, "learning_rate": 0.00015175879396984925, "loss": 2.0294, "step": 246 }, { "epoch": 6.861111111111111, "grad_norm": 1.7171748876571655, "learning_rate": 0.00015155778894472362, "loss": 1.9371, "step": 247 }, { "epoch": 6.888888888888889, "grad_norm": 2.4192745685577393, "learning_rate": 0.000151356783919598, "loss": 1.6764, "step": 248 }, { "epoch": 6.916666666666667, "grad_norm": 1.377709150314331, "learning_rate": 0.00015115577889447237, "loss": 2.0915, "step": 249 }, { "epoch": 6.944444444444445, "grad_norm": 1.479264259338379, "learning_rate": 0.00015095477386934674, "loss": 1.9248, "step": 250 }, { "epoch": 6.972222222222222, "grad_norm": 1.510584831237793, "learning_rate": 0.00015075376884422112, "loss": 2.1012, "step": 251 }, { "epoch": 7.0, "grad_norm": 1.427668571472168, "learning_rate": 0.0001505527638190955, "loss": 2.0368, "step": 252 }, { "epoch": 7.027777777777778, "grad_norm": 1.4250630140304565, "learning_rate": 0.00015035175879396986, "loss": 1.6598, "step": 253 }, { "epoch": 7.055555555555555, "grad_norm": 1.4768905639648438, "learning_rate": 0.00015015075376884423, "loss": 1.5058, "step": 254 }, { "epoch": 7.083333333333333, "grad_norm": 1.4958585500717163, "learning_rate": 0.0001499497487437186, "loss": 1.5665, "step": 255 }, { "epoch": 7.111111111111111, "grad_norm": 2.0677971839904785, "learning_rate": 0.00014974874371859298, "loss": 1.4768, "step": 256 }, { "epoch": 7.138888888888889, "grad_norm": 1.7393497228622437, "learning_rate": 0.00014954773869346735, "loss": 1.443, "step": 257 }, { "epoch": 7.166666666666667, "grad_norm": 1.8378914594650269, "learning_rate": 0.0001493467336683417, "loss": 1.4489, "step": 258 }, { "epoch": 7.194444444444445, "grad_norm": 1.9066448211669922, "learning_rate": 0.0001491457286432161, "loss": 1.651, "step": 259 }, { "epoch": 7.222222222222222, "grad_norm": 1.517954707145691, "learning_rate": 0.00014894472361809047, "loss": 1.6418, "step": 260 }, { "epoch": 7.25, "grad_norm": 1.6111383438110352, "learning_rate": 0.00014874371859296482, "loss": 1.425, "step": 261 }, { "epoch": 7.277777777777778, "grad_norm": 1.7935456037521362, "learning_rate": 0.0001485427135678392, "loss": 1.1878, "step": 262 }, { "epoch": 7.305555555555555, "grad_norm": 1.6560907363891602, "learning_rate": 0.00014834170854271356, "loss": 1.5303, "step": 263 }, { "epoch": 7.333333333333333, "grad_norm": 1.7460441589355469, "learning_rate": 0.00014814070351758796, "loss": 1.5236, "step": 264 }, { "epoch": 7.361111111111111, "grad_norm": 1.737589955329895, "learning_rate": 0.0001479396984924623, "loss": 1.4922, "step": 265 }, { "epoch": 7.388888888888889, "grad_norm": 2.1341378688812256, "learning_rate": 0.00014773869346733668, "loss": 1.4004, "step": 266 }, { "epoch": 7.416666666666667, "grad_norm": 2.1213536262512207, "learning_rate": 0.00014753768844221106, "loss": 1.5402, "step": 267 }, { "epoch": 7.444444444444445, "grad_norm": 1.8941349983215332, "learning_rate": 0.00014733668341708543, "loss": 1.2529, "step": 268 }, { "epoch": 7.472222222222222, "grad_norm": 2.054497718811035, "learning_rate": 0.0001471356783919598, "loss": 1.5538, "step": 269 }, { "epoch": 7.5, "grad_norm": 1.914266586303711, "learning_rate": 0.00014693467336683417, "loss": 1.5109, "step": 270 }, { "epoch": 7.527777777777778, "grad_norm": 1.7337716817855835, "learning_rate": 0.00014673366834170855, "loss": 1.3806, "step": 271 }, { "epoch": 7.555555555555555, "grad_norm": 1.7070109844207764, "learning_rate": 0.00014653266331658292, "loss": 1.4966, "step": 272 }, { "epoch": 7.583333333333333, "grad_norm": 1.8229920864105225, "learning_rate": 0.0001463316582914573, "loss": 1.3804, "step": 273 }, { "epoch": 7.611111111111111, "grad_norm": 2.1318881511688232, "learning_rate": 0.00014613065326633167, "loss": 1.1932, "step": 274 }, { "epoch": 7.638888888888889, "grad_norm": 1.6279592514038086, "learning_rate": 0.00014592964824120604, "loss": 1.585, "step": 275 }, { "epoch": 7.666666666666667, "grad_norm": 1.7652931213378906, "learning_rate": 0.0001457286432160804, "loss": 1.4188, "step": 276 }, { "epoch": 7.694444444444445, "grad_norm": 1.8977649211883545, "learning_rate": 0.00014552763819095479, "loss": 1.6582, "step": 277 }, { "epoch": 7.722222222222222, "grad_norm": 2.187936782836914, "learning_rate": 0.00014532663316582916, "loss": 1.5431, "step": 278 }, { "epoch": 7.75, "grad_norm": 1.7738553285598755, "learning_rate": 0.00014512562814070353, "loss": 1.5563, "step": 279 }, { "epoch": 7.777777777777778, "grad_norm": 1.8753288984298706, "learning_rate": 0.0001449246231155779, "loss": 1.5398, "step": 280 }, { "epoch": 7.805555555555555, "grad_norm": 1.7617218494415283, "learning_rate": 0.00014472361809045228, "loss": 1.3271, "step": 281 }, { "epoch": 7.833333333333333, "grad_norm": 1.8662376403808594, "learning_rate": 0.00014452261306532665, "loss": 1.3913, "step": 282 }, { "epoch": 7.861111111111111, "grad_norm": 1.7923781871795654, "learning_rate": 0.000144321608040201, "loss": 1.5676, "step": 283 }, { "epoch": 7.888888888888889, "grad_norm": 1.8576384782791138, "learning_rate": 0.00014412060301507537, "loss": 1.5185, "step": 284 }, { "epoch": 7.916666666666667, "grad_norm": 1.9660577774047852, "learning_rate": 0.00014391959798994977, "loss": 1.6536, "step": 285 }, { "epoch": 7.944444444444445, "grad_norm": 1.7799664735794067, "learning_rate": 0.00014371859296482411, "loss": 1.7739, "step": 286 }, { "epoch": 7.972222222222222, "grad_norm": 1.6636635065078735, "learning_rate": 0.0001435175879396985, "loss": 1.6206, "step": 287 }, { "epoch": 8.0, "grad_norm": 1.6872737407684326, "learning_rate": 0.00014331658291457286, "loss": 1.727, "step": 288 }, { "epoch": 8.027777777777779, "grad_norm": 1.7358859777450562, "learning_rate": 0.00014311557788944726, "loss": 1.2102, "step": 289 }, { "epoch": 8.055555555555555, "grad_norm": 1.7001848220825195, "learning_rate": 0.0001429145728643216, "loss": 1.0445, "step": 290 }, { "epoch": 8.083333333333334, "grad_norm": 1.5169070959091187, "learning_rate": 0.00014271356783919598, "loss": 0.9706, "step": 291 }, { "epoch": 8.11111111111111, "grad_norm": 1.5858696699142456, "learning_rate": 0.00014251256281407035, "loss": 1.0063, "step": 292 }, { "epoch": 8.13888888888889, "grad_norm": 2.1438534259796143, "learning_rate": 0.00014231155778894473, "loss": 1.0358, "step": 293 }, { "epoch": 8.166666666666666, "grad_norm": 2.1045401096343994, "learning_rate": 0.0001421105527638191, "loss": 1.101, "step": 294 }, { "epoch": 8.194444444444445, "grad_norm": 1.9997920989990234, "learning_rate": 0.00014190954773869347, "loss": 0.9291, "step": 295 }, { "epoch": 8.222222222222221, "grad_norm": 2.0490827560424805, "learning_rate": 0.00014170854271356784, "loss": 1.0236, "step": 296 }, { "epoch": 8.25, "grad_norm": 1.9438647031784058, "learning_rate": 0.00014150753768844222, "loss": 1.0062, "step": 297 }, { "epoch": 8.277777777777779, "grad_norm": 2.3030028343200684, "learning_rate": 0.0001413065326633166, "loss": 1.0284, "step": 298 }, { "epoch": 8.305555555555555, "grad_norm": 2.165250301361084, "learning_rate": 0.00014110552763819096, "loss": 1.1764, "step": 299 }, { "epoch": 8.333333333333334, "grad_norm": 1.7941243648529053, "learning_rate": 0.00014090452261306534, "loss": 0.8584, "step": 300 }, { "epoch": 8.36111111111111, "grad_norm": 1.8863277435302734, "learning_rate": 0.0001407035175879397, "loss": 0.9623, "step": 301 }, { "epoch": 8.38888888888889, "grad_norm": 1.8023550510406494, "learning_rate": 0.00014050251256281408, "loss": 1.0403, "step": 302 }, { "epoch": 8.416666666666666, "grad_norm": 2.167781114578247, "learning_rate": 0.00014030150753768846, "loss": 0.9697, "step": 303 }, { "epoch": 8.444444444444445, "grad_norm": 2.040131092071533, "learning_rate": 0.0001401005025125628, "loss": 1.1133, "step": 304 }, { "epoch": 8.472222222222221, "grad_norm": 2.3462352752685547, "learning_rate": 0.0001398994974874372, "loss": 1.0996, "step": 305 }, { "epoch": 8.5, "grad_norm": 2.0714120864868164, "learning_rate": 0.00013969849246231157, "loss": 0.8836, "step": 306 }, { "epoch": 8.527777777777779, "grad_norm": 1.9545197486877441, "learning_rate": 0.00013949748743718595, "loss": 0.9753, "step": 307 }, { "epoch": 8.555555555555555, "grad_norm": 1.8588637113571167, "learning_rate": 0.0001392964824120603, "loss": 1.0155, "step": 308 }, { "epoch": 8.583333333333334, "grad_norm": 1.7477375268936157, "learning_rate": 0.00013909547738693467, "loss": 0.9992, "step": 309 }, { "epoch": 8.61111111111111, "grad_norm": 1.8242835998535156, "learning_rate": 0.00013889447236180907, "loss": 0.9669, "step": 310 }, { "epoch": 8.63888888888889, "grad_norm": 1.8993569612503052, "learning_rate": 0.0001386934673366834, "loss": 1.0376, "step": 311 }, { "epoch": 8.666666666666666, "grad_norm": 2.0509471893310547, "learning_rate": 0.00013849246231155778, "loss": 1.1372, "step": 312 }, { "epoch": 8.694444444444445, "grad_norm": 2.2763187885284424, "learning_rate": 0.00013829145728643216, "loss": 1.0503, "step": 313 }, { "epoch": 8.722222222222221, "grad_norm": 1.7992242574691772, "learning_rate": 0.00013809045226130656, "loss": 1.2158, "step": 314 }, { "epoch": 8.75, "grad_norm": 1.9569649696350098, "learning_rate": 0.0001378894472361809, "loss": 1.0076, "step": 315 }, { "epoch": 8.777777777777779, "grad_norm": 2.304743766784668, "learning_rate": 0.00013768844221105528, "loss": 0.8493, "step": 316 }, { "epoch": 8.805555555555555, "grad_norm": 1.8884258270263672, "learning_rate": 0.00013748743718592965, "loss": 0.9293, "step": 317 }, { "epoch": 8.833333333333334, "grad_norm": 2.070767402648926, "learning_rate": 0.00013728643216080402, "loss": 1.299, "step": 318 }, { "epoch": 8.86111111111111, "grad_norm": 1.9780312776565552, "learning_rate": 0.0001370854271356784, "loss": 0.9502, "step": 319 }, { "epoch": 8.88888888888889, "grad_norm": 2.1939027309417725, "learning_rate": 0.00013688442211055277, "loss": 1.0722, "step": 320 }, { "epoch": 8.916666666666666, "grad_norm": 1.9111474752426147, "learning_rate": 0.00013668341708542714, "loss": 1.1038, "step": 321 }, { "epoch": 8.944444444444445, "grad_norm": 1.9658323526382446, "learning_rate": 0.00013648241206030151, "loss": 1.0367, "step": 322 }, { "epoch": 8.972222222222221, "grad_norm": 2.0607073307037354, "learning_rate": 0.0001362814070351759, "loss": 0.9556, "step": 323 }, { "epoch": 9.0, "grad_norm": 2.1230101585388184, "learning_rate": 0.00013608040201005026, "loss": 1.0968, "step": 324 }, { "epoch": 9.027777777777779, "grad_norm": 1.9337679147720337, "learning_rate": 0.00013587939698492463, "loss": 0.825, "step": 325 }, { "epoch": 9.055555555555555, "grad_norm": 1.7211626768112183, "learning_rate": 0.000135678391959799, "loss": 0.6492, "step": 326 }, { "epoch": 9.083333333333334, "grad_norm": 1.79193115234375, "learning_rate": 0.00013547738693467338, "loss": 0.7315, "step": 327 }, { "epoch": 9.11111111111111, "grad_norm": 1.6670434474945068, "learning_rate": 0.00013527638190954775, "loss": 0.5941, "step": 328 }, { "epoch": 9.13888888888889, "grad_norm": 2.2300119400024414, "learning_rate": 0.0001350753768844221, "loss": 0.6643, "step": 329 }, { "epoch": 9.166666666666666, "grad_norm": 2.006580352783203, "learning_rate": 0.00013487437185929647, "loss": 0.7614, "step": 330 }, { "epoch": 9.194444444444445, "grad_norm": 2.0135791301727295, "learning_rate": 0.00013467336683417087, "loss": 0.744, "step": 331 }, { "epoch": 9.222222222222221, "grad_norm": 1.894382357597351, "learning_rate": 0.00013447236180904524, "loss": 0.4917, "step": 332 }, { "epoch": 9.25, "grad_norm": 1.6878937482833862, "learning_rate": 0.0001342713567839196, "loss": 0.5848, "step": 333 }, { "epoch": 9.277777777777779, "grad_norm": 1.8328498601913452, "learning_rate": 0.00013407035175879396, "loss": 0.5944, "step": 334 }, { "epoch": 9.305555555555555, "grad_norm": 2.1267313957214355, "learning_rate": 0.00013386934673366836, "loss": 0.7206, "step": 335 }, { "epoch": 9.333333333333334, "grad_norm": 2.0015406608581543, "learning_rate": 0.0001336683417085427, "loss": 0.6755, "step": 336 }, { "epoch": 9.36111111111111, "grad_norm": 1.8056331872940063, "learning_rate": 0.00013346733668341708, "loss": 0.7621, "step": 337 }, { "epoch": 9.38888888888889, "grad_norm": 2.035961627960205, "learning_rate": 0.00013326633165829146, "loss": 0.6028, "step": 338 }, { "epoch": 9.416666666666666, "grad_norm": 2.0152101516723633, "learning_rate": 0.00013306532663316586, "loss": 0.6845, "step": 339 }, { "epoch": 9.444444444444445, "grad_norm": 2.1884567737579346, "learning_rate": 0.0001328643216080402, "loss": 0.78, "step": 340 }, { "epoch": 9.472222222222221, "grad_norm": 2.151284694671631, "learning_rate": 0.00013266331658291457, "loss": 0.5351, "step": 341 }, { "epoch": 9.5, "grad_norm": 2.011630058288574, "learning_rate": 0.00013246231155778895, "loss": 0.7264, "step": 342 }, { "epoch": 9.527777777777779, "grad_norm": 1.9497007131576538, "learning_rate": 0.00013226130653266332, "loss": 0.5919, "step": 343 }, { "epoch": 9.555555555555555, "grad_norm": 1.918546199798584, "learning_rate": 0.0001320603015075377, "loss": 0.6911, "step": 344 }, { "epoch": 9.583333333333334, "grad_norm": 1.8453887701034546, "learning_rate": 0.00013185929648241207, "loss": 0.5433, "step": 345 }, { "epoch": 9.61111111111111, "grad_norm": 1.9408482313156128, "learning_rate": 0.00013165829145728644, "loss": 0.7208, "step": 346 }, { "epoch": 9.63888888888889, "grad_norm": 3.1553046703338623, "learning_rate": 0.0001314572864321608, "loss": 0.6498, "step": 347 }, { "epoch": 9.666666666666666, "grad_norm": 2.343547821044922, "learning_rate": 0.00013125628140703518, "loss": 0.8017, "step": 348 }, { "epoch": 9.694444444444445, "grad_norm": 2.1881494522094727, "learning_rate": 0.00013105527638190956, "loss": 0.7423, "step": 349 }, { "epoch": 9.722222222222221, "grad_norm": 2.2012782096862793, "learning_rate": 0.00013085427135678393, "loss": 0.6137, "step": 350 }, { "epoch": 9.75, "grad_norm": 1.8005520105361938, "learning_rate": 0.0001306532663316583, "loss": 0.5675, "step": 351 }, { "epoch": 9.777777777777779, "grad_norm": 1.8730032444000244, "learning_rate": 0.00013045226130653268, "loss": 0.6315, "step": 352 }, { "epoch": 9.805555555555555, "grad_norm": 1.6335080862045288, "learning_rate": 0.00013025125628140705, "loss": 0.7302, "step": 353 }, { "epoch": 9.833333333333334, "grad_norm": 1.7782387733459473, "learning_rate": 0.0001300502512562814, "loss": 0.6627, "step": 354 }, { "epoch": 9.86111111111111, "grad_norm": 1.8533016443252563, "learning_rate": 0.00012984924623115577, "loss": 0.6431, "step": 355 }, { "epoch": 9.88888888888889, "grad_norm": 1.967458724975586, "learning_rate": 0.00012964824120603017, "loss": 0.6226, "step": 356 }, { "epoch": 9.916666666666666, "grad_norm": 2.017873764038086, "learning_rate": 0.00012944723618090454, "loss": 0.6881, "step": 357 }, { "epoch": 9.944444444444445, "grad_norm": 2.295516014099121, "learning_rate": 0.0001292462311557789, "loss": 0.6744, "step": 358 }, { "epoch": 9.972222222222221, "grad_norm": 2.054262638092041, "learning_rate": 0.00012904522613065326, "loss": 0.6879, "step": 359 }, { "epoch": 10.0, "grad_norm": 2.0079500675201416, "learning_rate": 0.00012884422110552766, "loss": 0.7234, "step": 360 }, { "epoch": 10.027777777777779, "grad_norm": 1.563742995262146, "learning_rate": 0.000128643216080402, "loss": 0.4167, "step": 361 }, { "epoch": 10.055555555555555, "grad_norm": 1.7256697416305542, "learning_rate": 0.00012844221105527638, "loss": 0.5805, "step": 362 }, { "epoch": 10.083333333333334, "grad_norm": 1.5540926456451416, "learning_rate": 0.00012824120603015075, "loss": 0.3475, "step": 363 }, { "epoch": 10.11111111111111, "grad_norm": 1.6988903284072876, "learning_rate": 0.00012804020100502515, "loss": 0.4063, "step": 364 }, { "epoch": 10.13888888888889, "grad_norm": 2.0747978687286377, "learning_rate": 0.0001278391959798995, "loss": 0.4251, "step": 365 }, { "epoch": 10.166666666666666, "grad_norm": 1.6526495218276978, "learning_rate": 0.00012763819095477387, "loss": 0.5037, "step": 366 }, { "epoch": 10.194444444444445, "grad_norm": 2.0639336109161377, "learning_rate": 0.00012743718592964824, "loss": 0.5403, "step": 367 }, { "epoch": 10.222222222222221, "grad_norm": 1.7688148021697998, "learning_rate": 0.00012723618090452262, "loss": 0.4146, "step": 368 }, { "epoch": 10.25, "grad_norm": 1.901822566986084, "learning_rate": 0.000127035175879397, "loss": 0.4183, "step": 369 }, { "epoch": 10.277777777777779, "grad_norm": 1.9058492183685303, "learning_rate": 0.00012683417085427136, "loss": 0.4621, "step": 370 }, { "epoch": 10.305555555555555, "grad_norm": 1.5918126106262207, "learning_rate": 0.00012663316582914574, "loss": 0.3931, "step": 371 }, { "epoch": 10.333333333333334, "grad_norm": 1.532020926475525, "learning_rate": 0.0001264321608040201, "loss": 0.3786, "step": 372 }, { "epoch": 10.36111111111111, "grad_norm": 1.9244790077209473, "learning_rate": 0.00012623115577889448, "loss": 0.3865, "step": 373 }, { "epoch": 10.38888888888889, "grad_norm": 1.820053219795227, "learning_rate": 0.00012603015075376885, "loss": 0.4507, "step": 374 }, { "epoch": 10.416666666666666, "grad_norm": 1.560868263244629, "learning_rate": 0.00012582914572864323, "loss": 0.3515, "step": 375 }, { "epoch": 10.444444444444445, "grad_norm": 1.6854190826416016, "learning_rate": 0.0001256281407035176, "loss": 0.4298, "step": 376 }, { "epoch": 10.472222222222221, "grad_norm": 2.0697734355926514, "learning_rate": 0.00012542713567839197, "loss": 0.4441, "step": 377 }, { "epoch": 10.5, "grad_norm": 1.9610546827316284, "learning_rate": 0.00012522613065326635, "loss": 0.3917, "step": 378 }, { "epoch": 10.527777777777779, "grad_norm": 1.980789065361023, "learning_rate": 0.0001250251256281407, "loss": 0.4136, "step": 379 }, { "epoch": 10.555555555555555, "grad_norm": 2.004621744155884, "learning_rate": 0.00012482412060301507, "loss": 0.3383, "step": 380 }, { "epoch": 10.583333333333334, "grad_norm": 1.9279786348342896, "learning_rate": 0.00012462311557788947, "loss": 0.4951, "step": 381 }, { "epoch": 10.61111111111111, "grad_norm": 2.067908763885498, "learning_rate": 0.00012442211055276384, "loss": 0.5317, "step": 382 }, { "epoch": 10.63888888888889, "grad_norm": 1.7549030780792236, "learning_rate": 0.00012422110552763818, "loss": 0.4658, "step": 383 }, { "epoch": 10.666666666666666, "grad_norm": 1.6129719018936157, "learning_rate": 0.00012402010050251256, "loss": 0.3992, "step": 384 }, { "epoch": 10.694444444444445, "grad_norm": 1.9041422605514526, "learning_rate": 0.00012381909547738696, "loss": 0.4575, "step": 385 }, { "epoch": 10.722222222222221, "grad_norm": 1.6786994934082031, "learning_rate": 0.0001236180904522613, "loss": 0.3621, "step": 386 }, { "epoch": 10.75, "grad_norm": 1.7930055856704712, "learning_rate": 0.00012341708542713568, "loss": 0.4025, "step": 387 }, { "epoch": 10.777777777777779, "grad_norm": 1.971924066543579, "learning_rate": 0.00012321608040201005, "loss": 0.3743, "step": 388 }, { "epoch": 10.805555555555555, "grad_norm": 1.9441263675689697, "learning_rate": 0.00012301507537688445, "loss": 0.4972, "step": 389 }, { "epoch": 10.833333333333334, "grad_norm": 1.7167638540267944, "learning_rate": 0.0001228140703517588, "loss": 0.4487, "step": 390 }, { "epoch": 10.86111111111111, "grad_norm": 1.6779038906097412, "learning_rate": 0.00012261306532663317, "loss": 0.3526, "step": 391 }, { "epoch": 10.88888888888889, "grad_norm": 1.6752976179122925, "learning_rate": 0.00012241206030150754, "loss": 0.3873, "step": 392 }, { "epoch": 10.916666666666666, "grad_norm": 1.7183427810668945, "learning_rate": 0.00012221105527638191, "loss": 0.4418, "step": 393 }, { "epoch": 10.944444444444445, "grad_norm": 1.8779858350753784, "learning_rate": 0.00012201005025125629, "loss": 0.5971, "step": 394 }, { "epoch": 10.972222222222221, "grad_norm": 1.6183161735534668, "learning_rate": 0.00012180904522613066, "loss": 0.4206, "step": 395 }, { "epoch": 11.0, "grad_norm": 2.307760715484619, "learning_rate": 0.00012160804020100502, "loss": 0.4724, "step": 396 }, { "epoch": 11.027777777777779, "grad_norm": 1.2763359546661377, "learning_rate": 0.00012140703517587942, "loss": 0.2586, "step": 397 }, { "epoch": 11.055555555555555, "grad_norm": 1.2663835287094116, "learning_rate": 0.00012120603015075378, "loss": 0.2874, "step": 398 }, { "epoch": 11.083333333333334, "grad_norm": 1.5953869819641113, "learning_rate": 0.00012100502512562815, "loss": 0.3071, "step": 399 }, { "epoch": 11.11111111111111, "grad_norm": 1.3436967134475708, "learning_rate": 0.00012080402010050251, "loss": 0.2852, "step": 400 }, { "epoch": 11.13888888888889, "grad_norm": 1.6336407661437988, "learning_rate": 0.00012060301507537688, "loss": 0.2967, "step": 401 }, { "epoch": 11.166666666666666, "grad_norm": 1.7910600900650024, "learning_rate": 0.00012040201005025127, "loss": 0.2535, "step": 402 }, { "epoch": 11.194444444444445, "grad_norm": 1.785036325454712, "learning_rate": 0.00012020100502512563, "loss": 0.252, "step": 403 }, { "epoch": 11.222222222222221, "grad_norm": 1.4227968454360962, "learning_rate": 0.00012, "loss": 0.2687, "step": 404 }, { "epoch": 11.25, "grad_norm": 1.6201423406600952, "learning_rate": 0.00011979899497487436, "loss": 0.2981, "step": 405 }, { "epoch": 11.277777777777779, "grad_norm": 1.623089075088501, "learning_rate": 0.00011959798994974876, "loss": 0.2315, "step": 406 }, { "epoch": 11.305555555555555, "grad_norm": 1.6252175569534302, "learning_rate": 0.00011939698492462312, "loss": 0.2757, "step": 407 }, { "epoch": 11.333333333333334, "grad_norm": 1.2967182397842407, "learning_rate": 0.0001191959798994975, "loss": 0.2573, "step": 408 }, { "epoch": 11.36111111111111, "grad_norm": 1.5457110404968262, "learning_rate": 0.00011899497487437185, "loss": 0.37, "step": 409 }, { "epoch": 11.38888888888889, "grad_norm": 2.036386251449585, "learning_rate": 0.00011879396984924624, "loss": 0.366, "step": 410 }, { "epoch": 11.416666666666666, "grad_norm": 1.5193849802017212, "learning_rate": 0.00011859296482412061, "loss": 0.3324, "step": 411 }, { "epoch": 11.444444444444445, "grad_norm": 1.4653046131134033, "learning_rate": 0.00011839195979899497, "loss": 0.3055, "step": 412 }, { "epoch": 11.472222222222221, "grad_norm": 1.6034345626831055, "learning_rate": 0.00011819095477386935, "loss": 0.2774, "step": 413 }, { "epoch": 11.5, "grad_norm": 1.4726758003234863, "learning_rate": 0.00011798994974874373, "loss": 0.3074, "step": 414 }, { "epoch": 11.527777777777779, "grad_norm": 1.6003245115280151, "learning_rate": 0.0001177889447236181, "loss": 0.2723, "step": 415 }, { "epoch": 11.555555555555555, "grad_norm": 1.5586435794830322, "learning_rate": 0.00011758793969849247, "loss": 0.2551, "step": 416 }, { "epoch": 11.583333333333334, "grad_norm": 1.8869497776031494, "learning_rate": 0.00011738693467336684, "loss": 0.3347, "step": 417 }, { "epoch": 11.61111111111111, "grad_norm": 1.6691088676452637, "learning_rate": 0.00011718592964824122, "loss": 0.3702, "step": 418 }, { "epoch": 11.63888888888889, "grad_norm": 1.706465721130371, "learning_rate": 0.00011698492462311558, "loss": 0.2927, "step": 419 }, { "epoch": 11.666666666666666, "grad_norm": 1.4941825866699219, "learning_rate": 0.00011678391959798996, "loss": 0.2301, "step": 420 }, { "epoch": 11.694444444444445, "grad_norm": 1.7878446578979492, "learning_rate": 0.00011658291457286432, "loss": 0.2887, "step": 421 }, { "epoch": 11.722222222222221, "grad_norm": 1.7138473987579346, "learning_rate": 0.00011638190954773872, "loss": 0.2586, "step": 422 }, { "epoch": 11.75, "grad_norm": 1.687165379524231, "learning_rate": 0.00011618090452261308, "loss": 0.2872, "step": 423 }, { "epoch": 11.777777777777779, "grad_norm": 1.4701007604599, "learning_rate": 0.00011597989949748745, "loss": 0.3203, "step": 424 }, { "epoch": 11.805555555555555, "grad_norm": 1.6026967763900757, "learning_rate": 0.00011577889447236181, "loss": 0.3157, "step": 425 }, { "epoch": 11.833333333333334, "grad_norm": 1.486088752746582, "learning_rate": 0.00011557788944723618, "loss": 0.3055, "step": 426 }, { "epoch": 11.86111111111111, "grad_norm": 1.4970706701278687, "learning_rate": 0.00011537688442211057, "loss": 0.2853, "step": 427 }, { "epoch": 11.88888888888889, "grad_norm": 1.3217071294784546, "learning_rate": 0.00011517587939698493, "loss": 0.216, "step": 428 }, { "epoch": 11.916666666666666, "grad_norm": 1.3774548768997192, "learning_rate": 0.0001149748743718593, "loss": 0.2679, "step": 429 }, { "epoch": 11.944444444444445, "grad_norm": 1.383097767829895, "learning_rate": 0.00011477386934673366, "loss": 0.2555, "step": 430 }, { "epoch": 11.972222222222221, "grad_norm": 1.4860109090805054, "learning_rate": 0.00011457286432160806, "loss": 0.3107, "step": 431 }, { "epoch": 12.0, "grad_norm": 1.8404626846313477, "learning_rate": 0.00011437185929648242, "loss": 0.3933, "step": 432 }, { "epoch": 12.027777777777779, "grad_norm": 1.0873167514801025, "learning_rate": 0.00011417085427135679, "loss": 0.2136, "step": 433 }, { "epoch": 12.055555555555555, "grad_norm": 1.2643769979476929, "learning_rate": 0.00011396984924623115, "loss": 0.225, "step": 434 }, { "epoch": 12.083333333333334, "grad_norm": 0.9171149730682373, "learning_rate": 0.00011376884422110554, "loss": 0.195, "step": 435 }, { "epoch": 12.11111111111111, "grad_norm": 1.111781120300293, "learning_rate": 0.00011356783919597991, "loss": 0.1589, "step": 436 }, { "epoch": 12.13888888888889, "grad_norm": 1.1840341091156006, "learning_rate": 0.00011336683417085427, "loss": 0.2286, "step": 437 }, { "epoch": 12.166666666666666, "grad_norm": 1.3437873125076294, "learning_rate": 0.00011316582914572864, "loss": 0.1933, "step": 438 }, { "epoch": 12.194444444444445, "grad_norm": 1.4864122867584229, "learning_rate": 0.00011296482412060303, "loss": 0.2056, "step": 439 }, { "epoch": 12.222222222222221, "grad_norm": 1.2721481323242188, "learning_rate": 0.0001127638190954774, "loss": 0.186, "step": 440 }, { "epoch": 12.25, "grad_norm": 1.3623347282409668, "learning_rate": 0.00011256281407035176, "loss": 0.2165, "step": 441 }, { "epoch": 12.277777777777779, "grad_norm": 1.3204618692398071, "learning_rate": 0.00011236180904522614, "loss": 0.2253, "step": 442 }, { "epoch": 12.305555555555555, "grad_norm": 1.5148686170578003, "learning_rate": 0.00011216080402010052, "loss": 0.2404, "step": 443 }, { "epoch": 12.333333333333334, "grad_norm": 1.410339593887329, "learning_rate": 0.00011195979899497488, "loss": 0.2609, "step": 444 }, { "epoch": 12.36111111111111, "grad_norm": 1.256713628768921, "learning_rate": 0.00011175879396984925, "loss": 0.1784, "step": 445 }, { "epoch": 12.38888888888889, "grad_norm": 1.4870256185531616, "learning_rate": 0.00011155778894472361, "loss": 0.2514, "step": 446 }, { "epoch": 12.416666666666666, "grad_norm": 1.408581018447876, "learning_rate": 0.00011135678391959799, "loss": 0.1652, "step": 447 }, { "epoch": 12.444444444444445, "grad_norm": 1.1764763593673706, "learning_rate": 0.00011115577889447237, "loss": 0.1853, "step": 448 }, { "epoch": 12.472222222222221, "grad_norm": 1.549407720565796, "learning_rate": 0.00011095477386934675, "loss": 0.2833, "step": 449 }, { "epoch": 12.5, "grad_norm": 1.2455781698226929, "learning_rate": 0.0001107537688442211, "loss": 0.2138, "step": 450 }, { "epoch": 12.527777777777779, "grad_norm": 1.2254953384399414, "learning_rate": 0.00011055276381909548, "loss": 0.1964, "step": 451 }, { "epoch": 12.555555555555555, "grad_norm": 1.3133251667022705, "learning_rate": 0.00011035175879396986, "loss": 0.1919, "step": 452 }, { "epoch": 12.583333333333334, "grad_norm": 1.2499064207077026, "learning_rate": 0.00011015075376884422, "loss": 0.2031, "step": 453 }, { "epoch": 12.61111111111111, "grad_norm": 1.4202483892440796, "learning_rate": 0.0001099497487437186, "loss": 0.2526, "step": 454 }, { "epoch": 12.63888888888889, "grad_norm": 1.2043802738189697, "learning_rate": 0.00010974874371859296, "loss": 0.2039, "step": 455 }, { "epoch": 12.666666666666666, "grad_norm": 1.3288553953170776, "learning_rate": 0.00010954773869346736, "loss": 0.2004, "step": 456 }, { "epoch": 12.694444444444445, "grad_norm": 1.2851141691207886, "learning_rate": 0.00010934673366834172, "loss": 0.2243, "step": 457 }, { "epoch": 12.722222222222221, "grad_norm": 1.458908200263977, "learning_rate": 0.00010914572864321609, "loss": 0.2066, "step": 458 }, { "epoch": 12.75, "grad_norm": 1.3724448680877686, "learning_rate": 0.00010894472361809045, "loss": 0.2016, "step": 459 }, { "epoch": 12.777777777777779, "grad_norm": 1.4058541059494019, "learning_rate": 0.00010874371859296483, "loss": 0.2041, "step": 460 }, { "epoch": 12.805555555555555, "grad_norm": 1.5812464952468872, "learning_rate": 0.00010854271356783921, "loss": 0.2414, "step": 461 }, { "epoch": 12.833333333333334, "grad_norm": 1.6183263063430786, "learning_rate": 0.00010834170854271357, "loss": 0.2064, "step": 462 }, { "epoch": 12.86111111111111, "grad_norm": 1.5149039030075073, "learning_rate": 0.00010814070351758794, "loss": 0.2226, "step": 463 }, { "epoch": 12.88888888888889, "grad_norm": 1.6003066301345825, "learning_rate": 0.00010793969849246233, "loss": 0.2255, "step": 464 }, { "epoch": 12.916666666666666, "grad_norm": 1.4426137208938599, "learning_rate": 0.0001077386934673367, "loss": 0.223, "step": 465 }, { "epoch": 12.944444444444445, "grad_norm": 1.3511395454406738, "learning_rate": 0.00010753768844221106, "loss": 0.2024, "step": 466 }, { "epoch": 12.972222222222221, "grad_norm": 1.4221662282943726, "learning_rate": 0.00010733668341708543, "loss": 0.2195, "step": 467 }, { "epoch": 13.0, "grad_norm": 1.5063340663909912, "learning_rate": 0.00010713567839195982, "loss": 0.2316, "step": 468 }, { "epoch": 13.027777777777779, "grad_norm": 1.0185739994049072, "learning_rate": 0.00010693467336683418, "loss": 0.1291, "step": 469 }, { "epoch": 13.055555555555555, "grad_norm": 1.032726764678955, "learning_rate": 0.00010673366834170855, "loss": 0.1478, "step": 470 }, { "epoch": 13.083333333333334, "grad_norm": 1.0978691577911377, "learning_rate": 0.00010653266331658291, "loss": 0.1579, "step": 471 }, { "epoch": 13.11111111111111, "grad_norm": 0.978913426399231, "learning_rate": 0.00010633165829145728, "loss": 0.1657, "step": 472 }, { "epoch": 13.13888888888889, "grad_norm": 1.1030129194259644, "learning_rate": 0.00010613065326633167, "loss": 0.1539, "step": 473 }, { "epoch": 13.166666666666666, "grad_norm": 1.2040104866027832, "learning_rate": 0.00010592964824120604, "loss": 0.1821, "step": 474 }, { "epoch": 13.194444444444445, "grad_norm": 1.1301722526550293, "learning_rate": 0.0001057286432160804, "loss": 0.1444, "step": 475 }, { "epoch": 13.222222222222221, "grad_norm": 1.2476627826690674, "learning_rate": 0.00010552763819095478, "loss": 0.1878, "step": 476 }, { "epoch": 13.25, "grad_norm": 1.2426493167877197, "learning_rate": 0.00010532663316582916, "loss": 0.1709, "step": 477 }, { "epoch": 13.277777777777779, "grad_norm": 0.8598493933677673, "learning_rate": 0.00010512562814070352, "loss": 0.1402, "step": 478 }, { "epoch": 13.305555555555555, "grad_norm": 1.039020299911499, "learning_rate": 0.0001049246231155779, "loss": 0.1525, "step": 479 }, { "epoch": 13.333333333333334, "grad_norm": 1.1393238306045532, "learning_rate": 0.00010472361809045225, "loss": 0.1572, "step": 480 }, { "epoch": 13.36111111111111, "grad_norm": 1.1963297128677368, "learning_rate": 0.00010452261306532664, "loss": 0.1794, "step": 481 }, { "epoch": 13.38888888888889, "grad_norm": 1.0832716226577759, "learning_rate": 0.00010432160804020101, "loss": 0.1785, "step": 482 }, { "epoch": 13.416666666666666, "grad_norm": 1.301019310951233, "learning_rate": 0.00010412060301507539, "loss": 0.2115, "step": 483 }, { "epoch": 13.444444444444445, "grad_norm": 0.7922705411911011, "learning_rate": 0.00010391959798994975, "loss": 0.1311, "step": 484 }, { "epoch": 13.472222222222221, "grad_norm": 0.9699487090110779, "learning_rate": 0.00010371859296482413, "loss": 0.1514, "step": 485 }, { "epoch": 13.5, "grad_norm": 0.7431811690330505, "learning_rate": 0.0001035175879396985, "loss": 0.1129, "step": 486 }, { "epoch": 13.527777777777779, "grad_norm": 1.0565297603607178, "learning_rate": 0.00010331658291457286, "loss": 0.1427, "step": 487 }, { "epoch": 13.555555555555555, "grad_norm": 1.34689199924469, "learning_rate": 0.00010311557788944724, "loss": 0.1884, "step": 488 }, { "epoch": 13.583333333333334, "grad_norm": 0.9676381349563599, "learning_rate": 0.00010291457286432162, "loss": 0.1381, "step": 489 }, { "epoch": 13.61111111111111, "grad_norm": 0.9501685500144958, "learning_rate": 0.00010271356783919598, "loss": 0.1663, "step": 490 }, { "epoch": 13.63888888888889, "grad_norm": 0.9399668574333191, "learning_rate": 0.00010251256281407036, "loss": 0.1548, "step": 491 }, { "epoch": 13.666666666666666, "grad_norm": 1.1208627223968506, "learning_rate": 0.00010231155778894473, "loss": 0.1368, "step": 492 }, { "epoch": 13.694444444444445, "grad_norm": 1.23501455783844, "learning_rate": 0.00010211055276381909, "loss": 0.1574, "step": 493 }, { "epoch": 13.722222222222221, "grad_norm": 0.8823213577270508, "learning_rate": 0.00010190954773869348, "loss": 0.1499, "step": 494 }, { "epoch": 13.75, "grad_norm": 1.1512999534606934, "learning_rate": 0.00010170854271356785, "loss": 0.1755, "step": 495 }, { "epoch": 13.777777777777779, "grad_norm": 1.2059557437896729, "learning_rate": 0.00010150753768844221, "loss": 0.2296, "step": 496 }, { "epoch": 13.805555555555555, "grad_norm": 1.1493213176727295, "learning_rate": 0.00010130653266331658, "loss": 0.1676, "step": 497 }, { "epoch": 13.833333333333334, "grad_norm": 1.077487587928772, "learning_rate": 0.00010110552763819097, "loss": 0.1828, "step": 498 }, { "epoch": 13.86111111111111, "grad_norm": 0.9982924461364746, "learning_rate": 0.00010090452261306533, "loss": 0.1434, "step": 499 }, { "epoch": 13.88888888888889, "grad_norm": 1.0128926038742065, "learning_rate": 0.0001007035175879397, "loss": 0.1532, "step": 500 }, { "epoch": 13.916666666666666, "grad_norm": 1.0642120838165283, "learning_rate": 0.00010050251256281407, "loss": 0.1781, "step": 501 }, { "epoch": 13.944444444444445, "grad_norm": 1.0252223014831543, "learning_rate": 0.00010030150753768846, "loss": 0.1491, "step": 502 }, { "epoch": 13.972222222222221, "grad_norm": 1.0365757942199707, "learning_rate": 0.00010010050251256282, "loss": 0.1762, "step": 503 }, { "epoch": 14.0, "grad_norm": 1.123305082321167, "learning_rate": 9.989949748743719e-05, "loss": 0.1668, "step": 504 }, { "epoch": 14.027777777777779, "grad_norm": 0.7563605904579163, "learning_rate": 9.969849246231156e-05, "loss": 0.1252, "step": 505 }, { "epoch": 14.055555555555555, "grad_norm": 0.7964538931846619, "learning_rate": 9.949748743718594e-05, "loss": 0.1127, "step": 506 }, { "epoch": 14.083333333333334, "grad_norm": 0.7747199535369873, "learning_rate": 9.929648241206031e-05, "loss": 0.1075, "step": 507 }, { "epoch": 14.11111111111111, "grad_norm": 0.6923967599868774, "learning_rate": 9.909547738693468e-05, "loss": 0.092, "step": 508 }, { "epoch": 14.13888888888889, "grad_norm": 0.7999073266983032, "learning_rate": 9.889447236180906e-05, "loss": 0.1249, "step": 509 }, { "epoch": 14.166666666666666, "grad_norm": 0.6770746111869812, "learning_rate": 9.869346733668342e-05, "loss": 0.1243, "step": 510 }, { "epoch": 14.194444444444445, "grad_norm": 0.9924452900886536, "learning_rate": 9.84924623115578e-05, "loss": 0.1352, "step": 511 }, { "epoch": 14.222222222222221, "grad_norm": 0.9714176654815674, "learning_rate": 9.829145728643216e-05, "loss": 0.1521, "step": 512 }, { "epoch": 14.25, "grad_norm": 0.7276933789253235, "learning_rate": 9.809045226130655e-05, "loss": 0.1173, "step": 513 }, { "epoch": 14.277777777777779, "grad_norm": 0.9339489936828613, "learning_rate": 9.788944723618091e-05, "loss": 0.1286, "step": 514 }, { "epoch": 14.305555555555555, "grad_norm": 0.7752110362052917, "learning_rate": 9.768844221105528e-05, "loss": 0.1303, "step": 515 }, { "epoch": 14.333333333333334, "grad_norm": 0.8333793878555298, "learning_rate": 9.748743718592965e-05, "loss": 0.1246, "step": 516 }, { "epoch": 14.36111111111111, "grad_norm": 0.8814124464988708, "learning_rate": 9.728643216080403e-05, "loss": 0.1372, "step": 517 }, { "epoch": 14.38888888888889, "grad_norm": 0.773285448551178, "learning_rate": 9.70854271356784e-05, "loss": 0.1121, "step": 518 }, { "epoch": 14.416666666666666, "grad_norm": 0.8597813248634338, "learning_rate": 9.688442211055276e-05, "loss": 0.1319, "step": 519 }, { "epoch": 14.444444444444445, "grad_norm": 0.7778146862983704, "learning_rate": 9.668341708542715e-05, "loss": 0.1222, "step": 520 }, { "epoch": 14.472222222222221, "grad_norm": 0.8108052611351013, "learning_rate": 9.64824120603015e-05, "loss": 0.1179, "step": 521 }, { "epoch": 14.5, "grad_norm": 0.8794648051261902, "learning_rate": 9.628140703517589e-05, "loss": 0.1212, "step": 522 }, { "epoch": 14.527777777777779, "grad_norm": 0.9494419097900391, "learning_rate": 9.608040201005025e-05, "loss": 0.153, "step": 523 }, { "epoch": 14.555555555555555, "grad_norm": 0.7757384777069092, "learning_rate": 9.587939698492462e-05, "loss": 0.1197, "step": 524 }, { "epoch": 14.583333333333334, "grad_norm": 0.7788528800010681, "learning_rate": 9.5678391959799e-05, "loss": 0.1402, "step": 525 }, { "epoch": 14.61111111111111, "grad_norm": 0.8111971020698547, "learning_rate": 9.547738693467337e-05, "loss": 0.1261, "step": 526 }, { "epoch": 14.63888888888889, "grad_norm": 0.703399121761322, "learning_rate": 9.527638190954774e-05, "loss": 0.1265, "step": 527 }, { "epoch": 14.666666666666666, "grad_norm": 0.6967660188674927, "learning_rate": 9.507537688442212e-05, "loss": 0.1152, "step": 528 }, { "epoch": 14.694444444444445, "grad_norm": 0.7753568291664124, "learning_rate": 9.487437185929649e-05, "loss": 0.1142, "step": 529 }, { "epoch": 14.722222222222221, "grad_norm": 0.8095998167991638, "learning_rate": 9.467336683417086e-05, "loss": 0.1284, "step": 530 }, { "epoch": 14.75, "grad_norm": 0.8306360840797424, "learning_rate": 9.447236180904523e-05, "loss": 0.1214, "step": 531 }, { "epoch": 14.777777777777779, "grad_norm": 0.6297640204429626, "learning_rate": 9.427135678391961e-05, "loss": 0.1059, "step": 532 }, { "epoch": 14.805555555555555, "grad_norm": 0.8339559435844421, "learning_rate": 9.407035175879397e-05, "loss": 0.1256, "step": 533 }, { "epoch": 14.833333333333334, "grad_norm": 0.8505684733390808, "learning_rate": 9.386934673366835e-05, "loss": 0.1336, "step": 534 }, { "epoch": 14.86111111111111, "grad_norm": 0.8154559135437012, "learning_rate": 9.366834170854271e-05, "loss": 0.12, "step": 535 }, { "epoch": 14.88888888888889, "grad_norm": 0.7037859559059143, "learning_rate": 9.34673366834171e-05, "loss": 0.1158, "step": 536 }, { "epoch": 14.916666666666666, "grad_norm": 0.9142326712608337, "learning_rate": 9.326633165829146e-05, "loss": 0.1277, "step": 537 }, { "epoch": 14.944444444444445, "grad_norm": 0.8874564170837402, "learning_rate": 9.306532663316585e-05, "loss": 0.1216, "step": 538 }, { "epoch": 14.972222222222221, "grad_norm": 0.6819849610328674, "learning_rate": 9.28643216080402e-05, "loss": 0.1108, "step": 539 }, { "epoch": 15.0, "grad_norm": 0.8687854409217834, "learning_rate": 9.266331658291458e-05, "loss": 0.135, "step": 540 }, { "epoch": 15.027777777777779, "grad_norm": 0.5919679999351501, "learning_rate": 9.246231155778895e-05, "loss": 0.095, "step": 541 }, { "epoch": 15.055555555555555, "grad_norm": 0.5037882924079895, "learning_rate": 9.226130653266331e-05, "loss": 0.0852, "step": 542 }, { "epoch": 15.083333333333334, "grad_norm": 0.4200478792190552, "learning_rate": 9.20603015075377e-05, "loss": 0.0898, "step": 543 }, { "epoch": 15.11111111111111, "grad_norm": 0.41313502192497253, "learning_rate": 9.185929648241206e-05, "loss": 0.0845, "step": 544 }, { "epoch": 15.13888888888889, "grad_norm": 0.5965655446052551, "learning_rate": 9.165829145728644e-05, "loss": 0.0857, "step": 545 }, { "epoch": 15.166666666666666, "grad_norm": 0.6208382844924927, "learning_rate": 9.14572864321608e-05, "loss": 0.1081, "step": 546 }, { "epoch": 15.194444444444445, "grad_norm": 0.5096889734268188, "learning_rate": 9.125628140703519e-05, "loss": 0.0859, "step": 547 }, { "epoch": 15.222222222222221, "grad_norm": 0.42990678548812866, "learning_rate": 9.105527638190955e-05, "loss": 0.0824, "step": 548 }, { "epoch": 15.25, "grad_norm": 0.6294184923171997, "learning_rate": 9.085427135678392e-05, "loss": 0.0822, "step": 549 }, { "epoch": 15.277777777777779, "grad_norm": 0.5056021213531494, "learning_rate": 9.06532663316583e-05, "loss": 0.0829, "step": 550 }, { "epoch": 15.305555555555555, "grad_norm": 0.6113279461860657, "learning_rate": 9.045226130653267e-05, "loss": 0.0895, "step": 551 }, { "epoch": 15.333333333333334, "grad_norm": 0.6175641417503357, "learning_rate": 9.025125628140704e-05, "loss": 0.0998, "step": 552 }, { "epoch": 15.36111111111111, "grad_norm": 0.49277326464653015, "learning_rate": 9.005025125628141e-05, "loss": 0.09, "step": 553 }, { "epoch": 15.38888888888889, "grad_norm": 0.7477462291717529, "learning_rate": 8.984924623115579e-05, "loss": 0.1054, "step": 554 }, { "epoch": 15.416666666666666, "grad_norm": 0.6127279996871948, "learning_rate": 8.964824120603016e-05, "loss": 0.1014, "step": 555 }, { "epoch": 15.444444444444445, "grad_norm": 0.5025595426559448, "learning_rate": 8.944723618090453e-05, "loss": 0.0744, "step": 556 }, { "epoch": 15.472222222222221, "grad_norm": 0.505151629447937, "learning_rate": 8.92462311557789e-05, "loss": 0.0963, "step": 557 }, { "epoch": 15.5, "grad_norm": 0.5947867631912231, "learning_rate": 8.904522613065326e-05, "loss": 0.0905, "step": 558 }, { "epoch": 15.527777777777779, "grad_norm": 0.5843008756637573, "learning_rate": 8.884422110552765e-05, "loss": 0.0841, "step": 559 }, { "epoch": 15.555555555555555, "grad_norm": 0.4954775273799896, "learning_rate": 8.864321608040201e-05, "loss": 0.0823, "step": 560 }, { "epoch": 15.583333333333334, "grad_norm": 0.5492306351661682, "learning_rate": 8.84422110552764e-05, "loss": 0.0877, "step": 561 }, { "epoch": 15.61111111111111, "grad_norm": 0.5670257210731506, "learning_rate": 8.824120603015076e-05, "loss": 0.0937, "step": 562 }, { "epoch": 15.63888888888889, "grad_norm": 0.4658597707748413, "learning_rate": 8.804020100502513e-05, "loss": 0.0954, "step": 563 }, { "epoch": 15.666666666666666, "grad_norm": 0.5900366902351379, "learning_rate": 8.78391959798995e-05, "loss": 0.093, "step": 564 }, { "epoch": 15.694444444444445, "grad_norm": 0.5067930221557617, "learning_rate": 8.763819095477387e-05, "loss": 0.0831, "step": 565 }, { "epoch": 15.722222222222221, "grad_norm": 0.6557374596595764, "learning_rate": 8.743718592964825e-05, "loss": 0.0939, "step": 566 }, { "epoch": 15.75, "grad_norm": 0.49141302704811096, "learning_rate": 8.723618090452261e-05, "loss": 0.0844, "step": 567 }, { "epoch": 15.777777777777779, "grad_norm": 0.39288681745529175, "learning_rate": 8.7035175879397e-05, "loss": 0.0818, "step": 568 }, { "epoch": 15.805555555555555, "grad_norm": 0.4589148163795471, "learning_rate": 8.683417085427135e-05, "loss": 0.0891, "step": 569 }, { "epoch": 15.833333333333334, "grad_norm": 0.5781644582748413, "learning_rate": 8.663316582914574e-05, "loss": 0.0863, "step": 570 }, { "epoch": 15.86111111111111, "grad_norm": 0.42294228076934814, "learning_rate": 8.64321608040201e-05, "loss": 0.0727, "step": 571 }, { "epoch": 15.88888888888889, "grad_norm": 0.5753669738769531, "learning_rate": 8.623115577889449e-05, "loss": 0.081, "step": 572 }, { "epoch": 15.916666666666666, "grad_norm": 0.5951781868934631, "learning_rate": 8.603015075376884e-05, "loss": 0.0882, "step": 573 }, { "epoch": 15.944444444444445, "grad_norm": 0.3950040340423584, "learning_rate": 8.582914572864322e-05, "loss": 0.0708, "step": 574 }, { "epoch": 15.972222222222221, "grad_norm": 0.5098704695701599, "learning_rate": 8.562814070351759e-05, "loss": 0.0813, "step": 575 }, { "epoch": 16.0, "grad_norm": 0.4652748107910156, "learning_rate": 8.542713567839196e-05, "loss": 0.0866, "step": 576 }, { "epoch": 16.02777777777778, "grad_norm": 0.31515586376190186, "learning_rate": 8.522613065326634e-05, "loss": 0.0648, "step": 577 }, { "epoch": 16.055555555555557, "grad_norm": 0.45465758442878723, "learning_rate": 8.502512562814071e-05, "loss": 0.0836, "step": 578 }, { "epoch": 16.083333333333332, "grad_norm": 0.7459914088249207, "learning_rate": 8.482412060301508e-05, "loss": 0.0726, "step": 579 }, { "epoch": 16.11111111111111, "grad_norm": 0.4284609258174896, "learning_rate": 8.462311557788946e-05, "loss": 0.0712, "step": 580 }, { "epoch": 16.13888888888889, "grad_norm": 0.2866183817386627, "learning_rate": 8.442211055276383e-05, "loss": 0.0673, "step": 581 }, { "epoch": 16.166666666666668, "grad_norm": 0.3085779845714569, "learning_rate": 8.42211055276382e-05, "loss": 0.0767, "step": 582 }, { "epoch": 16.194444444444443, "grad_norm": 0.3188706338405609, "learning_rate": 8.402010050251256e-05, "loss": 0.0625, "step": 583 }, { "epoch": 16.22222222222222, "grad_norm": 0.3520742654800415, "learning_rate": 8.381909547738695e-05, "loss": 0.0723, "step": 584 }, { "epoch": 16.25, "grad_norm": 0.2572345435619354, "learning_rate": 8.36180904522613e-05, "loss": 0.057, "step": 585 }, { "epoch": 16.27777777777778, "grad_norm": 0.19637121260166168, "learning_rate": 8.341708542713568e-05, "loss": 0.062, "step": 586 }, { "epoch": 16.305555555555557, "grad_norm": 0.28080159425735474, "learning_rate": 8.321608040201005e-05, "loss": 0.0665, "step": 587 }, { "epoch": 16.333333333333332, "grad_norm": 0.3569040894508362, "learning_rate": 8.301507537688443e-05, "loss": 0.0682, "step": 588 }, { "epoch": 16.36111111111111, "grad_norm": 0.3336542546749115, "learning_rate": 8.28140703517588e-05, "loss": 0.0648, "step": 589 }, { "epoch": 16.38888888888889, "grad_norm": 0.29412585496902466, "learning_rate": 8.261306532663317e-05, "loss": 0.0728, "step": 590 }, { "epoch": 16.416666666666668, "grad_norm": 0.317801833152771, "learning_rate": 8.241206030150754e-05, "loss": 0.0666, "step": 591 }, { "epoch": 16.444444444444443, "grad_norm": 0.23106186091899872, "learning_rate": 8.22110552763819e-05, "loss": 0.0679, "step": 592 }, { "epoch": 16.47222222222222, "grad_norm": 0.2970070242881775, "learning_rate": 8.201005025125629e-05, "loss": 0.0615, "step": 593 }, { "epoch": 16.5, "grad_norm": 0.3062777817249298, "learning_rate": 8.180904522613065e-05, "loss": 0.0747, "step": 594 }, { "epoch": 16.52777777777778, "grad_norm": 0.3278980255126953, "learning_rate": 8.160804020100504e-05, "loss": 0.0585, "step": 595 }, { "epoch": 16.555555555555557, "grad_norm": 0.2313859909772873, "learning_rate": 8.14070351758794e-05, "loss": 0.0676, "step": 596 }, { "epoch": 16.583333333333332, "grad_norm": 0.19183382391929626, "learning_rate": 8.120603015075378e-05, "loss": 0.0578, "step": 597 }, { "epoch": 16.61111111111111, "grad_norm": 0.23826183378696442, "learning_rate": 8.100502512562814e-05, "loss": 0.0591, "step": 598 }, { "epoch": 16.63888888888889, "grad_norm": 0.2566797137260437, "learning_rate": 8.080402010050251e-05, "loss": 0.0668, "step": 599 }, { "epoch": 16.666666666666668, "grad_norm": 0.24599987268447876, "learning_rate": 8.060301507537689e-05, "loss": 0.0604, "step": 600 }, { "epoch": 16.694444444444443, "grad_norm": 0.30577757954597473, "learning_rate": 8.040201005025126e-05, "loss": 0.0645, "step": 601 }, { "epoch": 16.72222222222222, "grad_norm": 0.22399026155471802, "learning_rate": 8.020100502512563e-05, "loss": 0.0669, "step": 602 }, { "epoch": 16.75, "grad_norm": 0.32369765639305115, "learning_rate": 8e-05, "loss": 0.0667, "step": 603 }, { "epoch": 16.77777777777778, "grad_norm": 0.32341477274894714, "learning_rate": 7.979899497487438e-05, "loss": 0.0734, "step": 604 }, { "epoch": 16.805555555555557, "grad_norm": 0.22947627305984497, "learning_rate": 7.959798994974875e-05, "loss": 0.0593, "step": 605 }, { "epoch": 16.833333333333332, "grad_norm": 0.3474196195602417, "learning_rate": 7.939698492462313e-05, "loss": 0.0656, "step": 606 }, { "epoch": 16.86111111111111, "grad_norm": 0.3257007598876953, "learning_rate": 7.91959798994975e-05, "loss": 0.0546, "step": 607 }, { "epoch": 16.88888888888889, "grad_norm": 0.3791564702987671, "learning_rate": 7.899497487437186e-05, "loss": 0.0674, "step": 608 }, { "epoch": 16.916666666666668, "grad_norm": 0.20767495036125183, "learning_rate": 7.879396984924623e-05, "loss": 0.0557, "step": 609 }, { "epoch": 16.944444444444443, "grad_norm": 0.30505627393722534, "learning_rate": 7.85929648241206e-05, "loss": 0.0726, "step": 610 }, { "epoch": 16.97222222222222, "grad_norm": 0.30774614214897156, "learning_rate": 7.839195979899498e-05, "loss": 0.0671, "step": 611 }, { "epoch": 17.0, "grad_norm": 0.3300018310546875, "learning_rate": 7.819095477386935e-05, "loss": 0.0659, "step": 612 }, { "epoch": 17.02777777777778, "grad_norm": 0.09366463124752045, "learning_rate": 7.798994974874372e-05, "loss": 0.0532, "step": 613 }, { "epoch": 17.055555555555557, "grad_norm": 0.14417655766010284, "learning_rate": 7.77889447236181e-05, "loss": 0.0563, "step": 614 }, { "epoch": 17.083333333333332, "grad_norm": 0.11263624578714371, "learning_rate": 7.758793969849247e-05, "loss": 0.0564, "step": 615 }, { "epoch": 17.11111111111111, "grad_norm": 0.12717601656913757, "learning_rate": 7.738693467336684e-05, "loss": 0.0494, "step": 616 }, { "epoch": 17.13888888888889, "grad_norm": 0.30553680658340454, "learning_rate": 7.71859296482412e-05, "loss": 0.0691, "step": 617 }, { "epoch": 17.166666666666668, "grad_norm": 0.14502690732479095, "learning_rate": 7.698492462311559e-05, "loss": 0.0526, "step": 618 }, { "epoch": 17.194444444444443, "grad_norm": 0.2343110591173172, "learning_rate": 7.678391959798995e-05, "loss": 0.0464, "step": 619 }, { "epoch": 17.22222222222222, "grad_norm": 0.15354570746421814, "learning_rate": 7.658291457286433e-05, "loss": 0.0572, "step": 620 }, { "epoch": 17.25, "grad_norm": 0.12414554506540298, "learning_rate": 7.638190954773869e-05, "loss": 0.0541, "step": 621 }, { "epoch": 17.27777777777778, "grad_norm": 0.12948885560035706, "learning_rate": 7.618090452261307e-05, "loss": 0.0561, "step": 622 }, { "epoch": 17.305555555555557, "grad_norm": 0.07666283845901489, "learning_rate": 7.597989949748744e-05, "loss": 0.0468, "step": 623 }, { "epoch": 17.333333333333332, "grad_norm": 0.08559957891702652, "learning_rate": 7.577889447236181e-05, "loss": 0.0504, "step": 624 }, { "epoch": 17.36111111111111, "grad_norm": 0.10556591302156448, "learning_rate": 7.557788944723618e-05, "loss": 0.0572, "step": 625 }, { "epoch": 17.38888888888889, "grad_norm": 0.15664710104465485, "learning_rate": 7.537688442211056e-05, "loss": 0.0535, "step": 626 }, { "epoch": 17.416666666666668, "grad_norm": 0.1447807401418686, "learning_rate": 7.517587939698493e-05, "loss": 0.0538, "step": 627 }, { "epoch": 17.444444444444443, "grad_norm": 0.14743369817733765, "learning_rate": 7.49748743718593e-05, "loss": 0.0539, "step": 628 }, { "epoch": 17.47222222222222, "grad_norm": 0.1425437480211258, "learning_rate": 7.477386934673368e-05, "loss": 0.0506, "step": 629 }, { "epoch": 17.5, "grad_norm": 0.12727734446525574, "learning_rate": 7.457286432160805e-05, "loss": 0.0514, "step": 630 }, { "epoch": 17.52777777777778, "grad_norm": 0.11670127511024475, "learning_rate": 7.437185929648241e-05, "loss": 0.0638, "step": 631 }, { "epoch": 17.555555555555557, "grad_norm": 0.2298140823841095, "learning_rate": 7.417085427135678e-05, "loss": 0.0568, "step": 632 }, { "epoch": 17.583333333333332, "grad_norm": 0.14166119694709778, "learning_rate": 7.396984924623115e-05, "loss": 0.0561, "step": 633 }, { "epoch": 17.61111111111111, "grad_norm": 0.15880267322063446, "learning_rate": 7.376884422110553e-05, "loss": 0.0593, "step": 634 }, { "epoch": 17.63888888888889, "grad_norm": 0.24466276168823242, "learning_rate": 7.35678391959799e-05, "loss": 0.058, "step": 635 }, { "epoch": 17.666666666666668, "grad_norm": 0.1455821692943573, "learning_rate": 7.336683417085427e-05, "loss": 0.0556, "step": 636 }, { "epoch": 17.694444444444443, "grad_norm": 0.16122226417064667, "learning_rate": 7.316582914572865e-05, "loss": 0.0537, "step": 637 }, { "epoch": 17.72222222222222, "grad_norm": 0.14006641507148743, "learning_rate": 7.296482412060302e-05, "loss": 0.0575, "step": 638 }, { "epoch": 17.75, "grad_norm": 0.21906979382038116, "learning_rate": 7.276381909547739e-05, "loss": 0.055, "step": 639 }, { "epoch": 17.77777777777778, "grad_norm": 0.12580548226833344, "learning_rate": 7.256281407035177e-05, "loss": 0.0559, "step": 640 }, { "epoch": 17.805555555555557, "grad_norm": 0.15838319063186646, "learning_rate": 7.236180904522614e-05, "loss": 0.047, "step": 641 }, { "epoch": 17.833333333333332, "grad_norm": 0.1465713232755661, "learning_rate": 7.21608040201005e-05, "loss": 0.0491, "step": 642 }, { "epoch": 17.86111111111111, "grad_norm": 0.12144537270069122, "learning_rate": 7.195979899497488e-05, "loss": 0.0622, "step": 643 }, { "epoch": 17.88888888888889, "grad_norm": 0.31986746191978455, "learning_rate": 7.175879396984924e-05, "loss": 0.0532, "step": 644 }, { "epoch": 17.916666666666668, "grad_norm": 0.10270120203495026, "learning_rate": 7.155778894472363e-05, "loss": 0.0501, "step": 645 }, { "epoch": 17.944444444444443, "grad_norm": 0.2943020462989807, "learning_rate": 7.135678391959799e-05, "loss": 0.0675, "step": 646 }, { "epoch": 17.97222222222222, "grad_norm": 0.12541326880455017, "learning_rate": 7.115577889447236e-05, "loss": 0.0516, "step": 647 }, { "epoch": 18.0, "grad_norm": 0.1908254623413086, "learning_rate": 7.095477386934674e-05, "loss": 0.0608, "step": 648 }, { "epoch": 18.02777777777778, "grad_norm": 0.12485776096582413, "learning_rate": 7.075376884422111e-05, "loss": 0.0489, "step": 649 }, { "epoch": 18.055555555555557, "grad_norm": 0.06988506019115448, "learning_rate": 7.055276381909548e-05, "loss": 0.0507, "step": 650 }, { "epoch": 18.083333333333332, "grad_norm": 0.09234056621789932, "learning_rate": 7.035175879396985e-05, "loss": 0.0567, "step": 651 }, { "epoch": 18.11111111111111, "grad_norm": 0.09695680439472198, "learning_rate": 7.015075376884423e-05, "loss": 0.0446, "step": 652 }, { "epoch": 18.13888888888889, "grad_norm": 0.1251324564218521, "learning_rate": 6.99497487437186e-05, "loss": 0.0483, "step": 653 }, { "epoch": 18.166666666666668, "grad_norm": 0.10532096773386002, "learning_rate": 6.974874371859297e-05, "loss": 0.0451, "step": 654 }, { "epoch": 18.194444444444443, "grad_norm": 0.1001739650964737, "learning_rate": 6.954773869346733e-05, "loss": 0.0421, "step": 655 }, { "epoch": 18.22222222222222, "grad_norm": 0.06681691855192184, "learning_rate": 6.93467336683417e-05, "loss": 0.0465, "step": 656 }, { "epoch": 18.25, "grad_norm": 0.07998601347208023, "learning_rate": 6.914572864321608e-05, "loss": 0.0556, "step": 657 }, { "epoch": 18.27777777777778, "grad_norm": 0.08332724869251251, "learning_rate": 6.894472361809045e-05, "loss": 0.0549, "step": 658 }, { "epoch": 18.305555555555557, "grad_norm": 0.07335761934518814, "learning_rate": 6.874371859296482e-05, "loss": 0.0484, "step": 659 }, { "epoch": 18.333333333333332, "grad_norm": 0.08322461694478989, "learning_rate": 6.85427135678392e-05, "loss": 0.0548, "step": 660 }, { "epoch": 18.36111111111111, "grad_norm": 0.10519403219223022, "learning_rate": 6.834170854271357e-05, "loss": 0.0486, "step": 661 }, { "epoch": 18.38888888888889, "grad_norm": 0.10660470277070999, "learning_rate": 6.814070351758794e-05, "loss": 0.0495, "step": 662 }, { "epoch": 18.416666666666668, "grad_norm": 0.08065590262413025, "learning_rate": 6.793969849246232e-05, "loss": 0.0564, "step": 663 }, { "epoch": 18.444444444444443, "grad_norm": 0.06747674942016602, "learning_rate": 6.773869346733669e-05, "loss": 0.0463, "step": 664 }, { "epoch": 18.47222222222222, "grad_norm": 0.08771118521690369, "learning_rate": 6.753768844221105e-05, "loss": 0.0563, "step": 665 }, { "epoch": 18.5, "grad_norm": 0.07044670730829239, "learning_rate": 6.733668341708544e-05, "loss": 0.0479, "step": 666 }, { "epoch": 18.52777777777778, "grad_norm": 0.09191519767045975, "learning_rate": 6.71356783919598e-05, "loss": 0.0544, "step": 667 }, { "epoch": 18.555555555555557, "grad_norm": 0.079335518181324, "learning_rate": 6.693467336683418e-05, "loss": 0.0521, "step": 668 }, { "epoch": 18.583333333333332, "grad_norm": 0.0776371955871582, "learning_rate": 6.673366834170854e-05, "loss": 0.0517, "step": 669 }, { "epoch": 18.61111111111111, "grad_norm": 0.09909038990736008, "learning_rate": 6.653266331658293e-05, "loss": 0.0526, "step": 670 }, { "epoch": 18.63888888888889, "grad_norm": 0.16319140791893005, "learning_rate": 6.633165829145729e-05, "loss": 0.0531, "step": 671 }, { "epoch": 18.666666666666668, "grad_norm": 0.09211023151874542, "learning_rate": 6.613065326633166e-05, "loss": 0.0559, "step": 672 }, { "epoch": 18.694444444444443, "grad_norm": 0.15737196803092957, "learning_rate": 6.592964824120603e-05, "loss": 0.0594, "step": 673 }, { "epoch": 18.72222222222222, "grad_norm": 0.09989679604768753, "learning_rate": 6.57286432160804e-05, "loss": 0.0548, "step": 674 }, { "epoch": 18.75, "grad_norm": 0.11813142895698547, "learning_rate": 6.552763819095478e-05, "loss": 0.0565, "step": 675 }, { "epoch": 18.77777777777778, "grad_norm": 0.0878959521651268, "learning_rate": 6.532663316582915e-05, "loss": 0.0572, "step": 676 }, { "epoch": 18.805555555555557, "grad_norm": 0.09698501974344254, "learning_rate": 6.512562814070352e-05, "loss": 0.0543, "step": 677 }, { "epoch": 18.833333333333332, "grad_norm": 0.07469457387924194, "learning_rate": 6.492462311557788e-05, "loss": 0.0479, "step": 678 }, { "epoch": 18.86111111111111, "grad_norm": 0.07166267186403275, "learning_rate": 6.472361809045227e-05, "loss": 0.051, "step": 679 }, { "epoch": 18.88888888888889, "grad_norm": 0.08136855810880661, "learning_rate": 6.452261306532663e-05, "loss": 0.0513, "step": 680 }, { "epoch": 18.916666666666668, "grad_norm": 0.10846130549907684, "learning_rate": 6.4321608040201e-05, "loss": 0.053, "step": 681 }, { "epoch": 18.944444444444443, "grad_norm": 0.08293663710355759, "learning_rate": 6.412060301507538e-05, "loss": 0.0525, "step": 682 }, { "epoch": 18.97222222222222, "grad_norm": 0.19369129836559296, "learning_rate": 6.391959798994975e-05, "loss": 0.0482, "step": 683 }, { "epoch": 19.0, "grad_norm": 0.14879240095615387, "learning_rate": 6.371859296482412e-05, "loss": 0.0586, "step": 684 }, { "epoch": 19.02777777777778, "grad_norm": 0.06967595219612122, "learning_rate": 6.35175879396985e-05, "loss": 0.0559, "step": 685 }, { "epoch": 19.055555555555557, "grad_norm": 0.057583216577768326, "learning_rate": 6.331658291457287e-05, "loss": 0.0461, "step": 686 }, { "epoch": 19.083333333333332, "grad_norm": 0.06312166154384613, "learning_rate": 6.311557788944724e-05, "loss": 0.0438, "step": 687 }, { "epoch": 19.11111111111111, "grad_norm": 0.0668620765209198, "learning_rate": 6.291457286432161e-05, "loss": 0.0604, "step": 688 }, { "epoch": 19.13888888888889, "grad_norm": 0.07520167529582977, "learning_rate": 6.271356783919599e-05, "loss": 0.049, "step": 689 }, { "epoch": 19.166666666666668, "grad_norm": 0.07722212374210358, "learning_rate": 6.251256281407035e-05, "loss": 0.0575, "step": 690 }, { "epoch": 19.194444444444443, "grad_norm": 0.0708722174167633, "learning_rate": 6.231155778894473e-05, "loss": 0.0529, "step": 691 }, { "epoch": 19.22222222222222, "grad_norm": 0.0889720693230629, "learning_rate": 6.211055276381909e-05, "loss": 0.0561, "step": 692 }, { "epoch": 19.25, "grad_norm": 0.0718214213848114, "learning_rate": 6.190954773869348e-05, "loss": 0.0463, "step": 693 }, { "epoch": 19.27777777777778, "grad_norm": 0.17026181519031525, "learning_rate": 6.170854271356784e-05, "loss": 0.0508, "step": 694 }, { "epoch": 19.305555555555557, "grad_norm": 0.052883442491292953, "learning_rate": 6.150753768844222e-05, "loss": 0.0503, "step": 695 }, { "epoch": 19.333333333333332, "grad_norm": 0.08085773885250092, "learning_rate": 6.130653266331658e-05, "loss": 0.0468, "step": 696 }, { "epoch": 19.36111111111111, "grad_norm": 0.059270914644002914, "learning_rate": 6.110552763819096e-05, "loss": 0.0451, "step": 697 }, { "epoch": 19.38888888888889, "grad_norm": 0.06861540675163269, "learning_rate": 6.090452261306533e-05, "loss": 0.054, "step": 698 }, { "epoch": 19.416666666666668, "grad_norm": 0.05330050364136696, "learning_rate": 6.070351758793971e-05, "loss": 0.0512, "step": 699 }, { "epoch": 19.444444444444443, "grad_norm": 0.06066427379846573, "learning_rate": 6.0502512562814076e-05, "loss": 0.0446, "step": 700 }, { "epoch": 19.47222222222222, "grad_norm": 0.08011835813522339, "learning_rate": 6.030150753768844e-05, "loss": 0.0499, "step": 701 }, { "epoch": 19.5, "grad_norm": 0.07207908481359482, "learning_rate": 6.0100502512562815e-05, "loss": 0.0449, "step": 702 }, { "epoch": 19.52777777777778, "grad_norm": 0.07992803305387497, "learning_rate": 5.989949748743718e-05, "loss": 0.0544, "step": 703 }, { "epoch": 19.555555555555557, "grad_norm": 0.07320316880941391, "learning_rate": 5.969849246231156e-05, "loss": 0.0514, "step": 704 }, { "epoch": 19.583333333333332, "grad_norm": 0.09166232496500015, "learning_rate": 5.949748743718593e-05, "loss": 0.0486, "step": 705 }, { "epoch": 19.61111111111111, "grad_norm": 0.06912554055452347, "learning_rate": 5.929648241206031e-05, "loss": 0.0496, "step": 706 }, { "epoch": 19.63888888888889, "grad_norm": 0.09784173220396042, "learning_rate": 5.909547738693467e-05, "loss": 0.0512, "step": 707 }, { "epoch": 19.666666666666668, "grad_norm": 0.08265840262174606, "learning_rate": 5.889447236180905e-05, "loss": 0.0508, "step": 708 }, { "epoch": 19.694444444444443, "grad_norm": 0.08775900304317474, "learning_rate": 5.869346733668342e-05, "loss": 0.0501, "step": 709 }, { "epoch": 19.72222222222222, "grad_norm": 0.07953248172998428, "learning_rate": 5.849246231155779e-05, "loss": 0.0508, "step": 710 }, { "epoch": 19.75, "grad_norm": 0.07316457480192184, "learning_rate": 5.829145728643216e-05, "loss": 0.056, "step": 711 }, { "epoch": 19.77777777777778, "grad_norm": 0.08896420150995255, "learning_rate": 5.809045226130654e-05, "loss": 0.0515, "step": 712 }, { "epoch": 19.805555555555557, "grad_norm": 0.08207637816667557, "learning_rate": 5.7889447236180904e-05, "loss": 0.0473, "step": 713 }, { "epoch": 19.833333333333332, "grad_norm": 0.0662303939461708, "learning_rate": 5.7688442211055284e-05, "loss": 0.0564, "step": 714 }, { "epoch": 19.86111111111111, "grad_norm": 0.10913988947868347, "learning_rate": 5.748743718592965e-05, "loss": 0.0535, "step": 715 }, { "epoch": 19.88888888888889, "grad_norm": 0.07523967325687408, "learning_rate": 5.728643216080403e-05, "loss": 0.0482, "step": 716 }, { "epoch": 19.916666666666668, "grad_norm": 0.07385770231485367, "learning_rate": 5.7085427135678396e-05, "loss": 0.0518, "step": 717 }, { "epoch": 19.944444444444443, "grad_norm": 0.09438145905733109, "learning_rate": 5.688442211055277e-05, "loss": 0.0436, "step": 718 }, { "epoch": 19.97222222222222, "grad_norm": 0.07779724895954132, "learning_rate": 5.6683417085427135e-05, "loss": 0.0476, "step": 719 }, { "epoch": 20.0, "grad_norm": 0.08695277571678162, "learning_rate": 5.6482412060301515e-05, "loss": 0.0456, "step": 720 }, { "epoch": 20.02777777777778, "grad_norm": 0.07208513468503952, "learning_rate": 5.628140703517588e-05, "loss": 0.0412, "step": 721 }, { "epoch": 20.055555555555557, "grad_norm": 0.0840156227350235, "learning_rate": 5.608040201005026e-05, "loss": 0.06, "step": 722 }, { "epoch": 20.083333333333332, "grad_norm": 0.09546954184770584, "learning_rate": 5.587939698492463e-05, "loss": 0.0513, "step": 723 }, { "epoch": 20.11111111111111, "grad_norm": 0.08512335270643234, "learning_rate": 5.567839195979899e-05, "loss": 0.062, "step": 724 }, { "epoch": 20.13888888888889, "grad_norm": 0.056506603956222534, "learning_rate": 5.547738693467337e-05, "loss": 0.0444, "step": 725 }, { "epoch": 20.166666666666668, "grad_norm": 0.07259034365415573, "learning_rate": 5.527638190954774e-05, "loss": 0.0552, "step": 726 }, { "epoch": 20.194444444444443, "grad_norm": 0.12085646390914917, "learning_rate": 5.507537688442211e-05, "loss": 0.0502, "step": 727 }, { "epoch": 20.22222222222222, "grad_norm": 0.07181341201066971, "learning_rate": 5.487437185929648e-05, "loss": 0.0455, "step": 728 }, { "epoch": 20.25, "grad_norm": 0.07472856342792511, "learning_rate": 5.467336683417086e-05, "loss": 0.0476, "step": 729 }, { "epoch": 20.27777777777778, "grad_norm": 0.06472582370042801, "learning_rate": 5.4472361809045224e-05, "loss": 0.0497, "step": 730 }, { "epoch": 20.305555555555557, "grad_norm": 0.052275534719228745, "learning_rate": 5.4271356783919604e-05, "loss": 0.0544, "step": 731 }, { "epoch": 20.333333333333332, "grad_norm": 0.054986607283353806, "learning_rate": 5.407035175879397e-05, "loss": 0.0427, "step": 732 }, { "epoch": 20.36111111111111, "grad_norm": 0.09538242220878601, "learning_rate": 5.386934673366835e-05, "loss": 0.0592, "step": 733 }, { "epoch": 20.38888888888889, "grad_norm": 0.09279220551252365, "learning_rate": 5.3668341708542716e-05, "loss": 0.0545, "step": 734 }, { "epoch": 20.416666666666668, "grad_norm": 0.09394790977239609, "learning_rate": 5.346733668341709e-05, "loss": 0.0568, "step": 735 }, { "epoch": 20.444444444444443, "grad_norm": 0.05115751922130585, "learning_rate": 5.3266331658291455e-05, "loss": 0.0453, "step": 736 }, { "epoch": 20.47222222222222, "grad_norm": 0.06043190136551857, "learning_rate": 5.3065326633165835e-05, "loss": 0.0454, "step": 737 }, { "epoch": 20.5, "grad_norm": 0.06928832083940506, "learning_rate": 5.28643216080402e-05, "loss": 0.045, "step": 738 }, { "epoch": 20.52777777777778, "grad_norm": 0.0828084647655487, "learning_rate": 5.266331658291458e-05, "loss": 0.0429, "step": 739 }, { "epoch": 20.555555555555557, "grad_norm": 0.056706447154283524, "learning_rate": 5.246231155778895e-05, "loss": 0.0524, "step": 740 }, { "epoch": 20.583333333333332, "grad_norm": 0.06446398049592972, "learning_rate": 5.226130653266332e-05, "loss": 0.0508, "step": 741 }, { "epoch": 20.61111111111111, "grad_norm": 0.08840697258710861, "learning_rate": 5.206030150753769e-05, "loss": 0.0523, "step": 742 }, { "epoch": 20.63888888888889, "grad_norm": 0.07040315121412277, "learning_rate": 5.1859296482412066e-05, "loss": 0.052, "step": 743 }, { "epoch": 20.666666666666668, "grad_norm": 0.06949566304683685, "learning_rate": 5.165829145728643e-05, "loss": 0.0483, "step": 744 }, { "epoch": 20.694444444444443, "grad_norm": 0.054639723151922226, "learning_rate": 5.145728643216081e-05, "loss": 0.043, "step": 745 }, { "epoch": 20.72222222222222, "grad_norm": 0.07475780695676804, "learning_rate": 5.125628140703518e-05, "loss": 0.0499, "step": 746 }, { "epoch": 20.75, "grad_norm": 0.052193351089954376, "learning_rate": 5.1055276381909544e-05, "loss": 0.0468, "step": 747 }, { "epoch": 20.77777777777778, "grad_norm": 0.06658941507339478, "learning_rate": 5.0854271356783924e-05, "loss": 0.0448, "step": 748 }, { "epoch": 20.805555555555557, "grad_norm": 0.07685142010450363, "learning_rate": 5.065326633165829e-05, "loss": 0.0471, "step": 749 }, { "epoch": 20.833333333333332, "grad_norm": 0.07082149386405945, "learning_rate": 5.045226130653266e-05, "loss": 0.0522, "step": 750 }, { "epoch": 20.86111111111111, "grad_norm": 0.11731856316328049, "learning_rate": 5.0251256281407036e-05, "loss": 0.0574, "step": 751 }, { "epoch": 20.88888888888889, "grad_norm": 0.06310612708330154, "learning_rate": 5.005025125628141e-05, "loss": 0.0494, "step": 752 }, { "epoch": 20.916666666666668, "grad_norm": 0.07018711417913437, "learning_rate": 4.984924623115578e-05, "loss": 0.0474, "step": 753 }, { "epoch": 20.944444444444443, "grad_norm": 0.07782807946205139, "learning_rate": 4.9648241206030155e-05, "loss": 0.0494, "step": 754 }, { "epoch": 20.97222222222222, "grad_norm": 0.0712573379278183, "learning_rate": 4.944723618090453e-05, "loss": 0.0516, "step": 755 }, { "epoch": 21.0, "grad_norm": 0.07320716977119446, "learning_rate": 4.92462311557789e-05, "loss": 0.0466, "step": 756 }, { "epoch": 21.02777777777778, "grad_norm": 0.05210418999195099, "learning_rate": 4.9045226130653274e-05, "loss": 0.0507, "step": 757 }, { "epoch": 21.055555555555557, "grad_norm": 0.06759029626846313, "learning_rate": 4.884422110552764e-05, "loss": 0.0424, "step": 758 }, { "epoch": 21.083333333333332, "grad_norm": 0.05820892006158829, "learning_rate": 4.864321608040201e-05, "loss": 0.0457, "step": 759 }, { "epoch": 21.11111111111111, "grad_norm": 0.05013956502079964, "learning_rate": 4.844221105527638e-05, "loss": 0.0443, "step": 760 }, { "epoch": 21.13888888888889, "grad_norm": 0.08401772379875183, "learning_rate": 4.824120603015075e-05, "loss": 0.0468, "step": 761 }, { "epoch": 21.166666666666668, "grad_norm": 0.07008124142885208, "learning_rate": 4.8040201005025125e-05, "loss": 0.0465, "step": 762 }, { "epoch": 21.194444444444443, "grad_norm": 0.07955142855644226, "learning_rate": 4.78391959798995e-05, "loss": 0.0467, "step": 763 }, { "epoch": 21.22222222222222, "grad_norm": 0.0756973847746849, "learning_rate": 4.763819095477387e-05, "loss": 0.0473, "step": 764 }, { "epoch": 21.25, "grad_norm": 0.06633740663528442, "learning_rate": 4.7437185929648244e-05, "loss": 0.0508, "step": 765 }, { "epoch": 21.27777777777778, "grad_norm": 0.07997078448534012, "learning_rate": 4.723618090452262e-05, "loss": 0.0477, "step": 766 }, { "epoch": 21.305555555555557, "grad_norm": 0.07867467403411865, "learning_rate": 4.703517587939698e-05, "loss": 0.045, "step": 767 }, { "epoch": 21.333333333333332, "grad_norm": 0.06045164167881012, "learning_rate": 4.6834170854271356e-05, "loss": 0.0459, "step": 768 }, { "epoch": 21.36111111111111, "grad_norm": 0.056813545525074005, "learning_rate": 4.663316582914573e-05, "loss": 0.0442, "step": 769 }, { "epoch": 21.38888888888889, "grad_norm": 0.06929126381874084, "learning_rate": 4.64321608040201e-05, "loss": 0.0505, "step": 770 }, { "epoch": 21.416666666666668, "grad_norm": 0.08558309078216553, "learning_rate": 4.6231155778894475e-05, "loss": 0.0537, "step": 771 }, { "epoch": 21.444444444444443, "grad_norm": 0.05319352075457573, "learning_rate": 4.603015075376885e-05, "loss": 0.0457, "step": 772 }, { "epoch": 21.47222222222222, "grad_norm": 0.08924277126789093, "learning_rate": 4.582914572864322e-05, "loss": 0.049, "step": 773 }, { "epoch": 21.5, "grad_norm": 0.0655708760023117, "learning_rate": 4.5628140703517594e-05, "loss": 0.0481, "step": 774 }, { "epoch": 21.52777777777778, "grad_norm": 0.08520608395338058, "learning_rate": 4.542713567839196e-05, "loss": 0.0521, "step": 775 }, { "epoch": 21.555555555555557, "grad_norm": 0.04782763496041298, "learning_rate": 4.522613065326633e-05, "loss": 0.0508, "step": 776 }, { "epoch": 21.583333333333332, "grad_norm": 0.061494130641222, "learning_rate": 4.5025125628140706e-05, "loss": 0.0448, "step": 777 }, { "epoch": 21.61111111111111, "grad_norm": 0.07061243057250977, "learning_rate": 4.482412060301508e-05, "loss": 0.0586, "step": 778 }, { "epoch": 21.63888888888889, "grad_norm": 0.055216964334249496, "learning_rate": 4.462311557788945e-05, "loss": 0.0455, "step": 779 }, { "epoch": 21.666666666666668, "grad_norm": 0.055778004229068756, "learning_rate": 4.4422110552763825e-05, "loss": 0.0522, "step": 780 }, { "epoch": 21.694444444444443, "grad_norm": 0.08095289021730423, "learning_rate": 4.42211055276382e-05, "loss": 0.0541, "step": 781 }, { "epoch": 21.72222222222222, "grad_norm": 0.08447986841201782, "learning_rate": 4.4020100502512564e-05, "loss": 0.058, "step": 782 }, { "epoch": 21.75, "grad_norm": 0.06366147845983505, "learning_rate": 4.381909547738694e-05, "loss": 0.0567, "step": 783 }, { "epoch": 21.77777777777778, "grad_norm": 0.07183677703142166, "learning_rate": 4.3618090452261303e-05, "loss": 0.0523, "step": 784 }, { "epoch": 21.805555555555557, "grad_norm": 0.05757102370262146, "learning_rate": 4.3417085427135676e-05, "loss": 0.0513, "step": 785 }, { "epoch": 21.833333333333332, "grad_norm": 0.11090563982725143, "learning_rate": 4.321608040201005e-05, "loss": 0.0674, "step": 786 }, { "epoch": 21.86111111111111, "grad_norm": 0.09190374612808228, "learning_rate": 4.301507537688442e-05, "loss": 0.0485, "step": 787 }, { "epoch": 21.88888888888889, "grad_norm": 0.06768490374088287, "learning_rate": 4.2814070351758795e-05, "loss": 0.0468, "step": 788 }, { "epoch": 21.916666666666668, "grad_norm": 0.06026061996817589, "learning_rate": 4.261306532663317e-05, "loss": 0.0508, "step": 789 }, { "epoch": 21.944444444444443, "grad_norm": 0.09248927235603333, "learning_rate": 4.241206030150754e-05, "loss": 0.05, "step": 790 }, { "epoch": 21.97222222222222, "grad_norm": 0.1386466920375824, "learning_rate": 4.2211055276381914e-05, "loss": 0.0442, "step": 791 }, { "epoch": 22.0, "grad_norm": 0.06950198113918304, "learning_rate": 4.201005025125628e-05, "loss": 0.0469, "step": 792 }, { "epoch": 22.02777777777778, "grad_norm": 0.059674713760614395, "learning_rate": 4.180904522613065e-05, "loss": 0.0535, "step": 793 }, { "epoch": 22.055555555555557, "grad_norm": 0.0760851800441742, "learning_rate": 4.1608040201005026e-05, "loss": 0.0445, "step": 794 }, { "epoch": 22.083333333333332, "grad_norm": 0.06202629953622818, "learning_rate": 4.14070351758794e-05, "loss": 0.0448, "step": 795 }, { "epoch": 22.11111111111111, "grad_norm": 0.06246551498770714, "learning_rate": 4.120603015075377e-05, "loss": 0.055, "step": 796 }, { "epoch": 22.13888888888889, "grad_norm": 0.06346238404512405, "learning_rate": 4.1005025125628145e-05, "loss": 0.0451, "step": 797 }, { "epoch": 22.166666666666668, "grad_norm": 0.04912286624312401, "learning_rate": 4.080402010050252e-05, "loss": 0.0449, "step": 798 }, { "epoch": 22.194444444444443, "grad_norm": 0.05338029935956001, "learning_rate": 4.060301507537689e-05, "loss": 0.0475, "step": 799 }, { "epoch": 22.22222222222222, "grad_norm": 0.07698258757591248, "learning_rate": 4.040201005025126e-05, "loss": 0.0498, "step": 800 } ], "logging_steps": 1, "max_steps": 1000, "num_input_tokens_seen": 0, "num_train_epochs": 28, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 4.050572855660544e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }