Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

checkpoints-v3/checkpoint-7168/eval_state.json +0 -0
checkpoints-v3/checkpoint-7168/model.safetensors +3 -0
checkpoints-v3/checkpoint-7168/optimizer.pt +3 -0
checkpoints-v3/checkpoint-7168/rng_state.pth +3 -0
checkpoints-v3/checkpoint-7168/scaler.pt +3 -0
checkpoints-v3/checkpoint-7168/scheduler.pt +3 -0
checkpoints-v3/checkpoint-7168/trainer_state.json +573 -0
checkpoints-v3/checkpoint-7168/training_args.bin +3 -0

checkpoints-v3/checkpoint-7168/eval_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints-v3/checkpoint-7168/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f7daf11bb4eaab952771d897197a4c2cf99e395c51912e1a734b70b8761a043
+size 37402680

checkpoints-v3/checkpoint-7168/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c895e6a2893c3a519125ef0880ccd3b676b305dfca932aedac9bc49b9c54e7d9
+size 512267

checkpoints-v3/checkpoint-7168/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01c01c678fa29a9262064ade7c90c5c12c8ca1b0c16a002081bbaef811e78e00
+size 14645

checkpoints-v3/checkpoint-7168/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d595dc04756955b718dbe40e12e3b42e9a74ec09bbdeec39a22714665de3cd13
+size 1383

checkpoints-v3/checkpoint-7168/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1accfb8c9e4435c988a0a31d91d0a223e4cb602232ad6ce46b39c8faafb8ab9d
+size 1465

checkpoints-v3/checkpoint-7168/trainer_state.json ADDED Viewed

	@@ -0,0 +1,573 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.07450407704020913,
+  "eval_steps": 1024,
+  "global_step": 7168,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002660859894293183,
+      "grad_norm": 1.2474960088729858,
+      "learning_rate": 4.416349151368202e-06,
+      "loss": 10.7959,
+      "step": 256
+    },
+    {
+      "epoch": 0.005321719788586366,
+      "grad_norm": 0.9909601807594299,
+      "learning_rate": 8.85001731901628e-06,
+      "loss": 10.0541,
+      "step": 512
+    },
+    {
+      "epoch": 0.00798257968287955,
+      "grad_norm": 0.8707857728004456,
+      "learning_rate": 1.3283685486664357e-05,
+      "loss": 9.0128,
+      "step": 768
+    },
+    {
+      "epoch": 0.010643439577172733,
+      "grad_norm": 0.8646675944328308,
+      "learning_rate": 1.7717353654312436e-05,
+      "loss": 8.0258,
+      "step": 1024
+    },
+    {
+      "epoch": 0.010643439577172733,
+      "eval_acr_loss": 0.010622835965477861,
+      "eval_across_var": 0.012448028806829825,
+      "eval_bleu": 0.09796718659972453,
+      "eval_ce_loss": 7.011146575212479,
+      "eval_cos_loss": 0.9561333861202002,
+      "eval_cov": 0.06968498229980469,
+      "eval_cov_loss": 0.007897357034380548,
+      "eval_glb_loss": 0.4064090773463249,
+      "eval_global_kurtosis": 3.1536246612668037,
+      "eval_global_mean": -0.0043766796588897705,
+      "eval_global_var": 0.26236724853515625,
+      "eval_krt_loss": 0.02414830235647969,
+      "eval_loss": 7.440777659416199,
+      "eval_mean_loss": 2.432924324580199e-05,
+      "eval_mse_loss": 1.9190465211868286,
+      "eval_per_loss": 0.3546135723590851,
+      "eval_per_var": 0.25460052490234375,
+      "eval_within_var": 0.2497538859024644,
+      "eval_wth_loss": 0.42283743154257536,
+      "step": 1024
+    },
+    {
+      "epoch": 0.010643439577172733,
+      "eval_acr_loss": 0.010622835965477861,
+      "eval_across_var": 0.012448028806829825,
+      "eval_bleu": 0.09796718659972453,
+      "eval_ce_loss": 7.011146575212479,
+      "eval_cos_loss": 0.9561333861202002,
+      "eval_cov": 0.06968498229980469,
+      "eval_cov_loss": 0.007897357034380548,
+      "eval_glb_loss": 0.4064090773463249,
+      "eval_global_kurtosis": 3.1536246612668037,
+      "eval_global_mean": -0.0043766796588897705,
+      "eval_global_var": 0.26236724853515625,
+      "eval_krt_loss": 0.02414830235647969,
+      "eval_loss": 7.440777659416199,
+      "eval_mean_loss": 2.432924324580199e-05,
+      "eval_mse_loss": 1.9190465211868286,
+      "eval_per_loss": 0.3546135723590851,
+      "eval_per_var": 0.25460052490234375,
+      "eval_runtime": 10.2924,
+      "eval_samples_per_second": 194.318,
+      "eval_steps_per_second": 3.109,
+      "eval_within_var": 0.2497538859024644,
+      "eval_wth_loss": 0.42283743154257536,
+      "step": 1024
+    },
+    {
+      "epoch": 0.013304299471465915,
+      "grad_norm": 0.8640124797821045,
+      "learning_rate": 2.2151021821960514e-05,
+      "loss": 7.0717,
+      "step": 1280
+    },
+    {
+      "epoch": 0.0159651593657591,
+      "grad_norm": 0.7730758190155029,
+      "learning_rate": 2.6584689989608592e-05,
+      "loss": 6.1186,
+      "step": 1536
+    },
+    {
+      "epoch": 0.018626019260052282,
+      "grad_norm": 0.6963288187980652,
+      "learning_rate": 3.1018358157256674e-05,
+      "loss": 5.2034,
+      "step": 1792
+    },
+    {
+      "epoch": 0.021286879154345465,
+      "grad_norm": 0.5616676211357117,
+      "learning_rate": 3.5452026324904745e-05,
+      "loss": 4.3736,
+      "step": 2048
+    },
+    {
+      "epoch": 0.021286879154345465,
+      "eval_acr_loss": 0.012247161677805707,
+      "eval_across_var": 0.012088194896932691,
+      "eval_bleu": 0.3414767015551533,
+      "eval_ce_loss": 3.459592819213867,
+      "eval_cos_loss": 0.9247305598109961,
+      "eval_cov": 0.0738067626953125,
+      "eval_cov_loss": 0.008805307501461357,
+      "eval_glb_loss": 0.354451559484005,
+      "eval_global_kurtosis": 3.0689163729548454,
+      "eval_global_mean": -0.004139065742492676,
+      "eval_global_var": 0.30448150634765625,
+      "eval_krt_loss": 0.005096593113194103,
+      "eval_loss": 3.872511200606823,
+      "eval_mean_loss": 2.0987964205687604e-05,
+      "eval_mse_loss": 1.9079551436007023,
+      "eval_per_loss": 0.3076172471046448,
+      "eval_per_var": 0.29547882080078125,
+      "eval_within_var": 0.29124921560287476,
+      "eval_wth_loss": 0.3706007469445467,
+      "step": 2048
+    },
+    {
+      "epoch": 0.021286879154345465,
+      "eval_acr_loss": 0.012247161677805707,
+      "eval_across_var": 0.012088194896932691,
+      "eval_bleu": 0.3414767015551533,
+      "eval_ce_loss": 3.459592819213867,
+      "eval_cos_loss": 0.9247305598109961,
+      "eval_cov": 0.0738067626953125,
+      "eval_cov_loss": 0.008805307501461357,
+      "eval_glb_loss": 0.354451559484005,
+      "eval_global_kurtosis": 3.0689163729548454,
+      "eval_global_mean": -0.004139065742492676,
+      "eval_global_var": 0.30448150634765625,
+      "eval_krt_loss": 0.005096593113194103,
+      "eval_loss": 3.872511200606823,
+      "eval_mean_loss": 2.0987964205687604e-05,
+      "eval_mse_loss": 1.9079551436007023,
+      "eval_per_loss": 0.3076172471046448,
+      "eval_per_var": 0.29547882080078125,
+      "eval_runtime": 9.9029,
+      "eval_samples_per_second": 201.962,
+      "eval_steps_per_second": 3.231,
+      "eval_within_var": 0.29124921560287476,
+      "eval_wth_loss": 0.3706007469445467,
+      "step": 2048
+    },
+    {
+      "epoch": 0.023947739048638648,
+      "grad_norm": 0.44369781017303467,
+      "learning_rate": 3.988569449255283e-05,
+      "loss": 3.6681,
+      "step": 2304
+    },
+    {
+      "epoch": 0.02660859894293183,
+      "grad_norm": 0.3687000274658203,
+      "learning_rate": 4.43193626602009e-05,
+      "loss": 3.0886,
+      "step": 2560
+    },
+    {
+      "epoch": 0.029269458837225013,
+      "grad_norm": 0.3568866550922394,
+      "learning_rate": 4.875303082784898e-05,
+      "loss": 2.6049,
+      "step": 2816
+    },
+    {
+      "epoch": 0.0319303187315182,
+      "grad_norm": 0.2986361086368561,
+      "learning_rate": 4.9999520413849384e-05,
+      "loss": 2.2063,
+      "step": 3072
+    },
+    {
+      "epoch": 0.0319303187315182,
+      "eval_acr_loss": 0.011944463331019506,
+      "eval_across_var": 0.025048962590517476,
+      "eval_bleu": 0.5783938497071468,
+      "eval_ce_loss": 1.5567151941359043,
+      "eval_cos_loss": 0.8373732026666403,
+      "eval_cov": 0.10790634155273438,
+      "eval_cov_loss": 0.01786720016389154,
+      "eval_glb_loss": 0.08421005308628082,
+      "eval_global_kurtosis": 3.042153775691986,
+      "eval_global_mean": -0.0013459473848342896,
+      "eval_global_var": 0.60980224609375,
+      "eval_krt_loss": 0.0020023469523948734,
+      "eval_loss": 1.9125033244490623,
+      "eval_mean_loss": 9.189085614202952e-06,
+      "eval_mse_loss": 1.798950683325529,
+      "eval_per_loss": 0.06572123290970922,
+      "eval_per_var": 0.59381103515625,
+      "eval_within_var": 0.5743193719536066,
+      "eval_wth_loss": 0.10620259935967624,
+      "step": 3072
+    },
+    {
+      "epoch": 0.0319303187315182,
+      "eval_acr_loss": 0.011944463331019506,
+      "eval_across_var": 0.025048962590517476,
+      "eval_bleu": 0.5783938497071468,
+      "eval_ce_loss": 1.5567151941359043,
+      "eval_cos_loss": 0.8373732026666403,
+      "eval_cov": 0.10790634155273438,
+      "eval_cov_loss": 0.01786720016389154,
+      "eval_glb_loss": 0.08421005308628082,
+      "eval_global_kurtosis": 3.042153775691986,
+      "eval_global_mean": -0.0013459473848342896,
+      "eval_global_var": 0.60980224609375,
+      "eval_krt_loss": 0.0020023469523948734,
+      "eval_loss": 1.9125033244490623,
+      "eval_mean_loss": 9.189085614202952e-06,
+      "eval_mse_loss": 1.798950683325529,
+      "eval_per_loss": 0.06572123290970922,
+      "eval_per_var": 0.59381103515625,
+      "eval_runtime": 10.4973,
+      "eval_samples_per_second": 190.525,
+      "eval_steps_per_second": 3.048,
+      "eval_within_var": 0.5743193719536066,
+      "eval_wth_loss": 0.10620259935967624,
+      "step": 3072
+    },
+    {
+      "epoch": 0.03459117862581138,
+      "grad_norm": 0.270656943321228,
+      "learning_rate": 4.9997257606389056e-05,
+      "loss": 1.8881,
+      "step": 3328
+    },
+    {
+      "epoch": 0.037252038520104565,
+      "grad_norm": 0.24188651144504547,
+      "learning_rate": 4.999313831167736e-05,
+      "loss": 1.6388,
+      "step": 3584
+    },
+    {
+      "epoch": 0.03991289841439775,
+      "grad_norm": 0.2294900268316269,
+      "learning_rate": 4.998716283564454e-05,
+      "loss": 1.4382,
+      "step": 3840
+    },
+    {
+      "epoch": 0.04257375830869093,
+      "grad_norm": 0.20773501694202423,
+      "learning_rate": 4.99793316220751e-05,
+      "loss": 1.2713,
+      "step": 4096
+    },
+    {
+      "epoch": 0.04257375830869093,
+      "eval_acr_loss": 0.011318061951897107,
+      "eval_across_var": 0.037467821151949465,
+      "eval_bleu": 0.7398917090811331,
+      "eval_ce_loss": 0.8147697541862726,
+      "eval_cos_loss": 0.739902313798666,
+      "eval_cov": 0.09920120239257812,
+      "eval_cov_loss": 0.015144521807087585,
+      "eval_glb_loss": 0.0026292089896742254,
+      "eval_global_kurtosis": 3.0431209057569504,
+      "eval_global_mean": 0.0002828165888786316,
+      "eval_global_var": 0.849639892578125,
+      "eval_krt_loss": 0.002429395680081825,
+      "eval_loss": 1.1247494276612997,
+      "eval_mean_loss": 1.0841616662204956e-05,
+      "eval_mse_loss": 1.6548683494329453,
+      "eval_per_loss": 0.0006620931362704141,
+      "eval_per_var": 0.826202392578125,
+      "eval_within_var": 0.8049256391823292,
+      "eval_wth_loss": 0.009282346058171242,
+      "step": 4096
+    },
+    {
+      "epoch": 0.04257375830869093,
+      "eval_acr_loss": 0.011318061951897107,
+      "eval_across_var": 0.037467821151949465,
+      "eval_bleu": 0.7398917090811331,
+      "eval_ce_loss": 0.8147697541862726,
+      "eval_cos_loss": 0.739902313798666,
+      "eval_cov": 0.09920120239257812,
+      "eval_cov_loss": 0.015144521807087585,
+      "eval_glb_loss": 0.0026292089896742254,
+      "eval_global_kurtosis": 3.0431209057569504,
+      "eval_global_mean": 0.0002828165888786316,
+      "eval_global_var": 0.849639892578125,
+      "eval_krt_loss": 0.002429395680081825,
+      "eval_loss": 1.1247494276612997,
+      "eval_mean_loss": 1.0841616662204956e-05,
+      "eval_mse_loss": 1.6548683494329453,
+      "eval_per_loss": 0.0006620931362704141,
+      "eval_per_var": 0.826202392578125,
+      "eval_runtime": 10.0939,
+      "eval_samples_per_second": 198.14,
+      "eval_steps_per_second": 3.17,
+      "eval_within_var": 0.8049256391823292,
+      "eval_wth_loss": 0.009282346058171242,
+      "step": 4096
+    },
+    {
+      "epoch": 0.04523461820298411,
+      "grad_norm": 0.1941945105791092,
+      "learning_rate": 4.996964525257477e-05,
+      "loss": 1.1364,
+      "step": 4352
+    },
+    {
+      "epoch": 0.047895478097277296,
+      "grad_norm": 0.17706365883350372,
+      "learning_rate": 4.995810444652731e-05,
+      "loss": 1.0202,
+      "step": 4608
+    },
+    {
+      "epoch": 0.05055633799157048,
+      "grad_norm": 0.17764592170715332,
+      "learning_rate": 4.994471006104112e-05,
+      "loss": 0.9256,
+      "step": 4864
+    },
+    {
+      "epoch": 0.05321719788586366,
+      "grad_norm": 0.1597519963979721,
+      "learning_rate": 4.992946309088557e-05,
+      "loss": 0.8433,
+      "step": 5120
+    },
+    {
+      "epoch": 0.05321719788586366,
+      "eval_acr_loss": 0.010796478512929752,
+      "eval_across_var": 0.0437286015949212,
+      "eval_bleu": 0.8359253777154618,
+      "eval_ce_loss": 0.4896330190822482,
+      "eval_cos_loss": 0.6560099385678768,
+      "eval_cov": 0.08585166931152344,
+      "eval_cov_loss": 0.011597162316320464,
+      "eval_glb_loss": 0.0,
+      "eval_global_kurtosis": 3.051339641213417,
+      "eval_global_mean": 0.0004043206572532654,
+      "eval_global_var": 0.9364166259765625,
+      "eval_krt_loss": 0.0034133701161636054,
+      "eval_loss": 0.7659010197967291,
+      "eval_mean_loss": 1.1450480416286268e-05,
+      "eval_mse_loss": 1.5238465368747711,
+      "eval_per_loss": 0.0,
+      "eval_per_var": 0.9102935791015625,
+      "eval_within_var": 0.8955719340592623,
+      "eval_wth_loss": 0.00021194279955238926,
+      "step": 5120
+    },
+    {
+      "epoch": 0.05321719788586366,
+      "eval_acr_loss": 0.010796478512929752,
+      "eval_across_var": 0.0437286015949212,
+      "eval_bleu": 0.8359253777154618,
+      "eval_ce_loss": 0.4896330190822482,
+      "eval_cos_loss": 0.6560099385678768,
+      "eval_cov": 0.08585166931152344,
+      "eval_cov_loss": 0.011597162316320464,
+      "eval_glb_loss": 0.0,
+      "eval_global_kurtosis": 3.051339641213417,
+      "eval_global_mean": 0.0004043206572532654,
+      "eval_global_var": 0.9364166259765625,
+      "eval_krt_loss": 0.0034133701161636054,
+      "eval_loss": 0.7659010197967291,
+      "eval_mean_loss": 1.1450480416286268e-05,
+      "eval_mse_loss": 1.5238465368747711,
+      "eval_per_loss": 0.0,
+      "eval_per_var": 0.9102935791015625,
+      "eval_runtime": 10.0333,
+      "eval_samples_per_second": 199.336,
+      "eval_steps_per_second": 3.189,
+      "eval_within_var": 0.8955719340592623,
+      "eval_wth_loss": 0.00021194279955238926,
+      "step": 5120
+    },
+    {
+      "epoch": 0.055878057780156844,
+      "grad_norm": 0.15128253400325775,
+      "learning_rate": 4.991236466841708e-05,
+      "loss": 0.7748,
+      "step": 5376
+    },
+    {
+      "epoch": 0.058538917674450026,
+      "grad_norm": 0.15075387060642242,
+      "learning_rate": 4.989341606349509e-05,
+      "loss": 0.7149,
+      "step": 5632
+    },
+    {
+      "epoch": 0.06119977756874321,
+      "grad_norm": 0.13722559809684753,
+      "learning_rate": 4.987261868338772e-05,
+      "loss": 0.6633,
+      "step": 5888
+    },
+    {
+      "epoch": 0.0638606374630364,
+      "grad_norm": 0.14299507439136505,
+      "learning_rate": 4.9849974072667235e-05,
+      "loss": 0.6168,
+      "step": 6144
+    },
+    {
+      "epoch": 0.0638606374630364,
+      "eval_acr_loss": 0.010568196172243915,
+      "eval_across_var": 0.050391704426147044,
+      "eval_bleu": 0.8864417334039504,
+      "eval_ce_loss": 0.3192982799373567,
+      "eval_cos_loss": 0.5848112031817436,
+      "eval_cov": 0.08610343933105469,
+      "eval_cov_loss": 0.011645367194432765,
+      "eval_glb_loss": 0.0,
+      "eval_global_kurtosis": 3.057781808078289,
+      "eval_global_mean": 0.00010520219802856445,
+      "eval_global_var": 1.05322265625,
+      "eval_krt_loss": 0.00413643000592856,
+      "eval_loss": 0.5672316299751401,
+      "eval_mean_loss": 1.1898590268621945e-05,
+      "eval_mse_loss": 1.4093649201095104,
+      "eval_per_loss": 0.0,
+      "eval_per_var": 1.0248565673828125,
+      "eval_within_var": 1.0096650514751673,
+      "eval_wth_loss": 0.0,
+      "step": 6144
+    },
+    {
+      "epoch": 0.0638606374630364,
+      "eval_acr_loss": 0.010568196172243915,
+      "eval_across_var": 0.050391704426147044,
+      "eval_bleu": 0.8864417334039504,
+      "eval_ce_loss": 0.3192982799373567,
+      "eval_cos_loss": 0.5848112031817436,
+      "eval_cov": 0.08610343933105469,
+      "eval_cov_loss": 0.011645367194432765,
+      "eval_glb_loss": 0.0,
+      "eval_global_kurtosis": 3.057781808078289,
+      "eval_global_mean": 0.00010520219802856445,
+      "eval_global_var": 1.05322265625,
+      "eval_krt_loss": 0.00413643000592856,
+      "eval_loss": 0.5672316299751401,
+      "eval_mean_loss": 1.1898590268621945e-05,
+      "eval_mse_loss": 1.4093649201095104,
+      "eval_per_loss": 0.0,
+      "eval_per_var": 1.0248565673828125,
+      "eval_runtime": 10.495,
+      "eval_samples_per_second": 190.567,
+      "eval_steps_per_second": 3.049,
+      "eval_within_var": 1.0096650514751673,
+      "eval_wth_loss": 0.0,
+      "step": 6144
+    },
+    {
+      "epoch": 0.06652149735732958,
+      "grad_norm": 0.13175231218338013,
+      "learning_rate": 4.9825483913095364e-05,
+      "loss": 0.5727,
+      "step": 6400
+    },
+    {
+      "epoch": 0.06918235725162276,
+      "grad_norm": 0.130602166056633,
+      "learning_rate": 4.979915002349838e-05,
+      "loss": 0.5411,
+      "step": 6656
+    },
+    {
+      "epoch": 0.07184321714591595,
+      "grad_norm": 0.12843571603298187,
+      "learning_rate": 4.977097435963204e-05,
+      "loss": 0.5082,
+      "step": 6912
+    },
+    {
+      "epoch": 0.07450407704020913,
+      "grad_norm": 0.1221570074558258,
+      "learning_rate": 4.974095901403632e-05,
+      "loss": 0.4775,
+      "step": 7168
+    },
+    {
+      "epoch": 0.07450407704020913,
+      "eval_acr_loss": 0.01032613120332826,
+      "eval_across_var": 0.055548187578096986,
+      "eval_bleu": 0.917825685067053,
+      "eval_ce_loss": 0.22222592495381832,
+      "eval_cos_loss": 0.5258319452404976,
+      "eval_cov": 0.0838165283203125,
+      "eval_cov_loss": 0.01109178303158842,
+      "eval_glb_loss": 0.0011626811420910599,
+      "eval_global_kurtosis": 3.0560965314507484,
+      "eval_global_mean": -0.00032412633299827576,
+      "eval_global_var": 1.1317138671875,
+      "eval_krt_loss": 0.003975647037577801,
+      "eval_loss": 0.4466686090454459,
+      "eval_mean_loss": 1.2274138283974168e-05,
+      "eval_mse_loss": 1.3142655715346336,
+      "eval_per_loss": 0.0,
+      "eval_per_var": 1.1024169921875,
+      "eval_within_var": 1.088273286819458,
+      "eval_wth_loss": 4.5452433568016204e-05,
+      "step": 7168
+    },
+    {
+      "epoch": 0.07450407704020913,
+      "eval_acr_loss": 0.01032613120332826,
+      "eval_across_var": 0.055548187578096986,
+      "eval_bleu": 0.917825685067053,
+      "eval_ce_loss": 0.22222592495381832,
+      "eval_cos_loss": 0.5258319452404976,
+      "eval_cov": 0.0838165283203125,
+      "eval_cov_loss": 0.01109178303158842,
+      "eval_glb_loss": 0.0011626811420910599,
+      "eval_global_kurtosis": 3.0560965314507484,
+      "eval_global_mean": -0.00032412633299827576,
+      "eval_global_var": 1.1317138671875,
+      "eval_krt_loss": 0.003975647037577801,
+      "eval_loss": 0.4466686090454459,
+      "eval_mean_loss": 1.2274138283974168e-05,
+      "eval_mse_loss": 1.3142655715346336,
+      "eval_per_loss": 0.0,
+      "eval_per_var": 1.1024169921875,
+      "eval_runtime": 10.2975,
+      "eval_samples_per_second": 194.222,
+      "eval_steps_per_second": 3.108,
+      "eval_within_var": 1.088273286819458,
+      "eval_wth_loss": 4.5452433568016204e-05,
+      "step": 7168
+    }
+  ],
+  "logging_steps": 256,
+  "max_steps": 96210,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 1024,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints-v3/checkpoint-7168/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d4bda444d2217dfb8c9657e282f4547df7c92efeb7c6abde9e602028d4dde0a
+size 5777