diff --git "a/train.log" "b/train.log"
new file mode 100644--- /dev/null
+++ "b/train.log"
@@ -0,0 +1,1146 @@
+W0920 18:03:04.927000 339084 site-packages/torch/distributed/run.py:793] 
+W0920 18:03:04.927000 339084 site-packages/torch/distributed/run.py:793] *****************************************
+W0920 18:03:04.927000 339084 site-packages/torch/distributed/run.py:793] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
+W0920 18:03:04.927000 339084 site-packages/torch/distributed/run.py:793] *****************************************
+Trainer._get_train_sampler replaced with custom implementation.
+[2025-09-20 18:03:10,287] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+Trainer._get_train_sampler replaced with custom implementation.
+[2025-09-20 18:03:10,649] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+Trainer._get_train_sampler replaced with custom implementation.
+Trainer._get_train_sampler replaced with custom implementation.
+Trainer._get_train_sampler replaced with custom implementation.
+Trainer._get_train_sampler replaced with custom implementation.
+Trainer._get_train_sampler replaced with custom implementation.
+Trainer._get_train_sampler replaced with custom implementation.
+[2025-09-20 18:03:11,232] [INFO] [comm.py:658:init_distributed] cdb=None
+[2025-09-20 18:03:11,273] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-09-20 18:03:11,290] [INFO] [comm.py:658:init_distributed] cdb=None
+[2025-09-20 18:03:11,303] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-09-20 18:03:11,307] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-09-20 18:03:11,313] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-09-20 18:03:11,328] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-09-20 18:03:11,330] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-09-20 18:03:12,030] [INFO] [comm.py:658:init_distributed] cdb=None
+[2025-09-20 18:03:12,046] [INFO] [comm.py:658:init_distributed] cdb=None
+[2025-09-20 18:03:12,047] [INFO] [comm.py:689:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+[2025-09-20 18:03:12,076] [INFO] [comm.py:658:init_distributed] cdb=None
+[2025-09-20 18:03:12,080] [INFO] [comm.py:658:init_distributed] cdb=None
+FlashAttention 3 is available
+[2025-09-20 18:03:12,085] [INFO] [comm.py:658:init_distributed] cdb=None
+FlashAttention 3 is available
+[2025-09-20 18:03:12,257] [INFO] [comm.py:658:init_distributed] cdb=None
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/magi_attention/__init__.py:23: UserWarning: You are using magi_attention without installing it. This may cause some unexpected errors.
+  warnings.warn(
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/magi_attention/__init__.py:23: UserWarning: You are using magi_attention without installing it. This may cause some unexpected errors.
+  warnings.warn(
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+FlashAttention 3 is available
+FlashAttention 3 is available
+FlashAttention 3 is available
+FlashAttention 3 is available
+FlashAttention 3 is available
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/magi_attention/__init__.py:23: UserWarning: You are using magi_attention without installing it. This may cause some unexpected errors.
+  warnings.warn(
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/magi_attention/__init__.py:23: UserWarning: You are using magi_attention without installing it. This may cause some unexpected errors.
+  warnings.warn(
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/magi_attention/__init__.py:23: UserWarning: You are using magi_attention without installing it. This may cause some unexpected errors.
+  warnings.warn(
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/magi_attention/__init__.py:23: UserWarning: You are using magi_attention without installing it. This may cause some unexpected errors.
+  warnings.warn(
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/magi_attention/__init__.py:23: UserWarning: You are using magi_attention without installing it. This may cause some unexpected errors.
+  warnings.warn(
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+FlashAttention 3 is available
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/magi_attention/__init__.py:23: UserWarning: You are using magi_attention without installing it. This may cause some unexpected errors.
+  warnings.warn(
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:  40%|████      | 2/5 [00:01<00:02,  1.05it/s]Loading checkpoint shards:  40%|████      | 2/5 [00:01<00:02,  1.06it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:  40%|████      | 2/5 [00:01<00:02,  1.11it/s]Loading checkpoint shards:  40%|████      | 2/5 [00:01<00:02,  1.11it/s]Loading checkpoint shards:  40%|████      | 2/5 [00:01<00:02,  1.12it/s]Loading checkpoint shards:  60%|██████    | 3/5 [00:03<00:02,  1.30s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:03<00:02,  1.29s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:02<00:03,  1.01s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:02<00:03,  1.03s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:03<00:02,  1.25s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:03<00:02,  1.25s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:03<00:02,  1.24s/it]Loading checkpoint shards:   0%|          | 0/5 [00:00<?, ?it/s]Loading checkpoint shards:  80%|████████  | 4/5 [00:05<00:01,  1.47s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:05<00:01,  1.46s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.13s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.19s/it]
+Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at /mnt/data0/zhengduo/model/Qwen2.5-VL-7B-Instruct/ and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.13s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.18s/it]
+Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at /mnt/data0/zhengduo/model/Qwen2.5-VL-7B-Instruct/ and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Loading checkpoint shards:  60%|██████    | 3/5 [00:03<00:02,  1.38s/it]Loading checkpoint shards:  60%|██████    | 3/5 [00:03<00:02,  1.40s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:05<00:01,  1.43s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:05<00:01,  1.43s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:05<00:01,  1.43s/it]Loading checkpoint shards:  40%|████      | 2/5 [00:01<00:02,  1.08it/s]Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.10s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.15s/it]
+Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at /mnt/data0/zhengduo/model/Qwen2.5-VL-7B-Instruct/ and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.10s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.15s/it]
+Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at /mnt/data0/zhengduo/model/Qwen2.5-VL-7B-Instruct/ and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.10s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.15s/it]
+Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at /mnt/data0/zhengduo/model/Qwen2.5-VL-7B-Instruct/ and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Loading checkpoint shards:  80%|████████  | 4/5 [00:05<00:01,  1.55s/it]Loading checkpoint shards:  80%|████████  | 4/5 [00:05<00:01,  1.57s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:06<00:00,  1.19s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:06<00:00,  1.26s/it]
+Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at /mnt/data0/zhengduo/model/Qwen2.5-VL-7B-Instruct/ and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Loading checkpoint shards:  60%|██████    | 3/5 [00:03<00:02,  1.25s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:06<00:00,  1.21s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:06<00:00,  1.27s/it]
+Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at /mnt/data0/zhengduo/model/Qwen2.5-VL-7B-Instruct/ and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Loading checkpoint shards:  80%|████████  | 4/5 [00:05<00:01,  1.41s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.08s/it]Loading checkpoint shards: 100%|██████████| 5/5 [00:05<00:00,  1.14s/it]
+Some weights of Qwen2_5_VLForConditionalGenerationWithVGGT were not initialized from the model checkpoint at /mnt/data0/zhengduo/model/Qwen2.5-VL-7B-Instruct/ and are newly initialized: ['geometry_encoder.vggt.aggregator.camera_token', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.frame_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.k_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.q_norm.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.global_blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.0.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.1.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.10.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.11.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.12.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.13.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.14.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.15.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.16.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.17.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.18.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.19.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.2.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.20.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.21.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.22.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.23.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.3.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.4.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.5.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.6.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.7.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.8.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.attn.qkv.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls1.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.ls2.gamma', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.mlp.fc2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm1.weight', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.bias', 'geometry_encoder.vggt.aggregator.patch_embed.blocks.9.norm2.weight', 'geometry_encoder.vggt.aggregator.patch_embed.cls_token', 'geometry_encoder.vggt.aggregator.patch_embed.mask_token', 'geometry_encoder.vggt.aggregator.patch_embed.norm.bias', 'geometry_encoder.vggt.aggregator.patch_embed.norm.weight', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.bias', 'geometry_encoder.vggt.aggregator.patch_embed.patch_embed.proj.weight', 'geometry_encoder.vggt.aggregator.patch_embed.pos_embed', 'geometry_encoder.vggt.aggregator.patch_embed.register_tokens', 'geometry_encoder.vggt.aggregator.register_token', 'geometry_merger.ln_q.weight', 'geometry_merger.mlp.0.bias', 'geometry_merger.mlp.0.weight', 'geometry_merger.mlp.2.bias', 'geometry_merger.mlp.2.weight']
+You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
+Loading weights from local directory
+Loading weights from local directory
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Loading weights from local directory
+Loading weights from local directory
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Loading weights from local directory
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_type": "vggt",
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}
+
+Loading datasets: [{'annotation_path': 'data/train/scan2cap_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scan2cap'}, {'annotation_path': 'data/train/scanrefer_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scanrefer'}, {'annotation_path': 'data/train/scannet_det_train_4frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scannet_det'}]
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_type": "vggt",
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}
+
+Loading datasets: [{'annotation_path': 'data/train/scan2cap_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scan2cap'}, {'annotation_path': 'data/train/scanrefer_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scanrefer'}, {'annotation_path': 'data/train/scannet_det_train_4frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scannet_det'}]
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Loading weights from local directory
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_type": "vggt",
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}
+
+Loading datasets: [{'annotation_path': 'data/train/scan2cap_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scan2cap'}, {'annotation_path': 'data/train/scanrefer_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scanrefer'}, {'annotation_path': 'data/train/scannet_det_train_4frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scannet_det'}]
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_type": "vggt",
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}
+
+Loading datasets: [{'annotation_path': 'data/train/scan2cap_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scan2cap'}, {'annotation_path': 'data/train/scanrefer_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scanrefer'}, {'annotation_path': 'data/train/scannet_det_train_4frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scannet_det'}]
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_type": "vggt",
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}
+
+Loading datasets: [{'annotation_path': 'data/train/scan2cap_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scan2cap'}, {'annotation_path': 'data/train/scanrefer_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scanrefer'}, {'annotation_path': 'data/train/scannet_det_train_4frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scannet_det'}]
+Loading weights from local directory
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_type": "vggt",
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}
+
+Loading datasets: [{'annotation_path': 'data/train/scan2cap_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scan2cap'}, {'annotation_path': 'data/train/scanrefer_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scanrefer'}, {'annotation_path': 'data/train/scannet_det_train_4frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scannet_det'}]
+Loading weights from local directory
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_type": "vggt",
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}
+
+Loading datasets: [{'annotation_path': 'data/train/scan2cap_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scan2cap'}, {'annotation_path': 'data/train/scanrefer_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scanrefer'}, {'annotation_path': 'data/train/scannet_det_train_4frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scannet_det'}]
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.50, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Vision Module - Attention Blocks:
+Trainable Block Indices: None
+Non-Trainable Block Indices: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31]
+Merger Module Trainable: False
+LLM Module - Embed Tokens Trainable: True
+LLM Module - Trainable Layer Indices: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27]
+LLM Module - Non-Trainable Layer Indices: None
+Qwen2_5_VLConfig {
+  "_attn_implementation_autoset": true,
+  "architectures": [
+    "Qwen2_5_VLForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "feature_fusion_method": "add",
+  "fusion_num_layers": 1,
+  "geometry_encoder_type": "vggt",
+  "geometry_merger_type": "mlp",
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "image_token_id": 151655,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 128000,
+  "max_window_layers": 28,
+  "model_type": "qwen2_5_vl",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "reference_frame": "first",
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": {
+    "mrope_section": [
+      16,
+      24,
+      24
+    ],
+    "rope_type": "default",
+    "type": "default"
+  },
+  "rope_theta": 1000000.0,
+  "sliding_window": 32768,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.50.0",
+  "use_cache": false,
+  "use_geometry_encoder": true,
+  "use_sliding_window": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "depth": 32,
+    "fullatt_block_indexes": [
+      7,
+      15,
+      23,
+      31
+    ],
+    "hidden_act": "silu",
+    "hidden_size": 1280,
+    "in_channels": 3,
+    "in_chans": 3,
+    "intermediate_size": 3420,
+    "model_type": "qwen2_5_vl",
+    "num_heads": 16,
+    "out_hidden_size": 3584,
+    "patch_size": 14,
+    "spatial_merge_size": 2,
+    "spatial_patch_size": 14,
+    "temporal_patch_size": 2,
+    "tokens_per_second": 2,
+    "torch_dtype": "bfloat16",
+    "window_size": 112
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652,
+  "vision_token_id": 151654,
+  "vocab_size": 152064
+}
+
+Loading datasets: [{'annotation_path': 'data/train/scan2cap_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scan2cap'}, {'annotation_path': 'data/train/scanrefer_train_32frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scanrefer'}, {'annotation_path': 'data/train/scannet_det_train_4frames.json', 'data_path': 'data/media', 'tag': '3d', 'sampling_rate': 1.0, 'dataset_name': 'scannet_det'}]
+Total training samples: 245607
+Formatting inputs...Skip in lazy mode
+Total training samples: 245607
+Formatting inputs...Skip in lazy mode
+Total training samples: 245607
+Total training samples: 245607
+Formatting inputs...Skip in lazy mode
+Formatting inputs...Skip in lazy mode
+Total training samples: 245607
+Formatting inputs...Skip in lazy mode
+Total training samples: 245607
+Formatting inputs...Skip in lazy mode
+Total training samples: 245607
+Formatting inputs...Skip in lazy mode
+Total training samples: 245607
+Formatting inputs...Skip in lazy mode
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+  0%|          | 0/3837 [00:00<?, ?it/s]/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+  0%|          | 1/3837 [00:15<16:54:38, 15.87s/it]  0%|          | 2/3837 [00:25<13:13:33, 12.42s/it]  0%|          | 3/3837 [00:37<12:46:01, 11.99s/it]  0%|          | 4/3837 [00:49<12:43:13, 11.95s/it]  0%|          | 5/3837 [00:59<12:03:01, 11.32s/it]  0%|          | 6/3837 [01:11<12:12:48, 11.48s/it]  0%|          | 7/3837 [01:22<12:12:24, 11.47s/it]  0%|          | 8/3837 [01:32<11:41:20, 10.99s/it]  0%|          | 9/3837 [01:44<11:59:37, 11.28s/it]  0%|          | 10/3837 [01:54<11:30:36, 10.83s/it]                                                    {'loss': 11.4087, 'grad_norm': 110.86865234375, 'learning_rate': 8.620689655172415e-07, 'epoch': 0.0}
+  0%|          | 10/3837 [01:58<11:30:36, 10.83s/it]  0%|          | 11/3837 [02:10<13:05:14, 12.31s/it]  0%|          | 12/3837 [02:21<12:48:12, 12.05s/it]  0%|          | 13/3837 [02:33<12:37:40, 11.89s/it]  0%|          | 14/3837 [02:42<11:56:53, 11.25s/it]  0%|          | 15/3837 [02:54<12:02:52, 11.35s/it]  0%|          | 16/3837 [03:07<12:36:05, 11.87s/it]  0%|          | 17/3837 [03:17<11:56:45, 11.26s/it]  0%|          | 18/3837 [03:28<12:00:06, 11.31s/it]  0%|          | 19/3837 [03:38<11:30:05, 10.84s/it]  1%|          | 20/3837 [03:50<11:49:09, 11.15s/it]                                                    {'loss': 9.1907, 'grad_norm': 67.33353424072266, 'learning_rate': 1.724137931034483e-06, 'epoch': 0.01}
+  1%|          | 20/3837 [03:50<11:49:09, 11.15s/it]  1%|          | 21/3837 [04:01<11:53:40, 11.22s/it]  1%|          | 22/3837 [04:14<12:31:01, 11.81s/it]  1%|          | 23/3837 [04:26<12:23:45, 11.70s/it]  1%|          | 24/3837 [04:39<12:51:04, 12.13s/it]  1%|          | 25/3837 [04:50<12:38:19, 11.94s/it]  1%|          | 26/3837 [05:00<11:58:21, 11.31s/it]  1%|          | 27/3837 [05:10<11:29:49, 10.86s/it]  1%|          | 28/3837 [05:22<11:40:02, 11.03s/it]  1%|          | 29/3837 [05:33<11:49:33, 11.18s/it]  1%|          | 30/3837 [05:45<11:56:18, 11.29s/it]                                                    {'loss': 7.6051, 'grad_norm': 30.089614868164062, 'learning_rate': 2.5862068965517246e-06, 'epoch': 0.01}
+  1%|          | 30/3837 [05:45<11:56:18, 11.29s/it]  1%|          | 31/3837 [05:56<11:58:36, 11.33s/it]  1%|          | 32/3837 [06:07<12:00:20, 11.36s/it]  1%|          | 33/3837 [06:19<12:01:09, 11.37s/it]  1%|          | 34/3837 [06:31<12:06:44, 11.47s/it]  1%|          | 35/3837 [06:42<12:07:06, 11.47s/it]  1%|          | 36/3837 [06:55<12:38:56, 11.98s/it]  1%|          | 37/3837 [07:05<11:56:26, 11.31s/it]  1%|          | 38/3837 [07:15<11:27:41, 10.86s/it]  1%|          | 39/3837 [07:26<11:38:38, 11.04s/it]  1%|          | 40/3837 [07:39<12:17:28, 11.65s/it]                                                    {'loss': 6.7381, 'grad_norm': 46.92324447631836, 'learning_rate': 3.448275862068966e-06, 'epoch': 0.01}
+  1%|          | 40/3837 [07:39<12:17:28, 11.65s/it]  1%|          | 41/3837 [07:51<12:13:57, 11.60s/it]  1%|          | 42/3837 [08:02<12:12:30, 11.58s/it]  1%|          | 43/3837 [08:14<12:09:14, 11.53s/it]  1%|          | 44/3837 [08:24<11:38:51, 11.05s/it]  1%|          | 45/3837 [08:35<11:47:11, 11.19s/it]  1%|          | 46/3837 [08:47<11:53:12, 11.29s/it]  1%|          | 47/3837 [08:58<11:57:33, 11.36s/it]  1%|▏         | 48/3837 [09:08<11:28:46, 10.91s/it]  1%|▏         | 49/3837 [09:20<11:44:07, 11.15s/it]  1%|▏         | 50/3837 [09:30<11:17:37, 10.74s/it]                                                    {'loss': 6.1279, 'grad_norm': 23.63817596435547, 'learning_rate': 4.310344827586207e-06, 'epoch': 0.01}
+  1%|▏         | 50/3837 [09:30<11:17:37, 10.74s/it]  1%|▏         | 51/3837 [09:41<11:32:38, 10.98s/it]  1%|▏         | 52/3837 [09:51<11:13:03, 10.67s/it]  1%|▏         | 53/3837 [10:03<11:27:56, 10.91s/it]  1%|▏         | 54/3837 [10:16<12:10:26, 11.59s/it]  1%|▏         | 55/3837 [10:26<11:38:16, 11.08s/it]  1%|▏         | 56/3837 [10:37<11:47:18, 11.22s/it]  1%|▏         | 57/3837 [10:49<11:51:16, 11.29s/it]  2%|▏         | 58/3837 [10:58<11:22:45, 10.84s/it]  2%|▏         | 59/3837 [11:10<11:36:06, 11.06s/it]  2%|▏         | 60/3837 [11:22<11:46:26, 11.22s/it]                                                    {'loss': 5.9629, 'grad_norm': 24.60967445373535, 'learning_rate': 5.172413793103449e-06, 'epoch': 0.02}
+  2%|▏         | 60/3837 [11:22<11:46:26, 11.22s/it]  2%|▏         | 61/3837 [11:33<11:53:30, 11.34s/it]  2%|▏         | 62/3837 [11:45<11:57:11, 11.40s/it]  2%|▏         | 63/3837 [11:56<11:57:20, 11.40s/it]  2%|▏         | 64/3837 [12:09<12:32:13, 11.96s/it]  2%|▏         | 65/3837 [12:21<12:24:32, 11.84s/it]  2%|▏         | 66/3837 [12:32<12:15:35, 11.70s/it]  2%|▏         | 67/3837 [12:44<12:10:44, 11.63s/it]  2%|▏         | 68/3837 [12:55<12:07:48, 11.59s/it]  2%|▏         | 69/3837 [13:07<12:04:58, 11.54s/it]  2%|▏         | 70/3837 [13:18<12:01:45, 11.50s/it]                                                    {'loss': 6.3056, 'grad_norm': 28.19795036315918, 'learning_rate': 6.03448275862069e-06, 'epoch': 0.02}
+  2%|▏         | 70/3837 [13:18<12:01:45, 11.50s/it]  2%|▏         | 71/3837 [13:28<11:37:23, 11.11s/it]  2%|▏         | 72/3837 [13:40<11:48:17, 11.29s/it]  2%|▏         | 73/3837 [13:50<11:21:18, 10.86s/it]  2%|▏         | 74/3837 [14:02<11:35:39, 11.09s/it]  2%|▏         | 75/3837 [14:13<11:45:36, 11.25s/it]  2%|▏         | 76/3837 [14:25<11:50:39, 11.34s/it]  2%|▏         | 77/3837 [14:38<12:26:19, 11.91s/it]  2%|▏         | 78/3837 [14:49<12:17:55, 11.78s/it]  2%|▏         | 79/3837 [14:59<11:43:06, 11.23s/it]  2%|▏         | 80/3837 [15:09<11:17:22, 10.82s/it]                                                    {'loss': 6.1308, 'grad_norm': 27.955842971801758, 'learning_rate': 6.896551724137932e-06, 'epoch': 0.02}
+  2%|▏         | 80/3837 [15:09<11:17:22, 10.82s/it]  2%|▏         | 81/3837 [15:20<11:21:49, 10.89s/it]  2%|▏         | 82/3837 [15:32<11:34:23, 11.10s/it]  2%|▏         | 83/3837 [15:43<11:43:33, 11.24s/it]  2%|▏         | 84/3837 [15:55<11:49:04, 11.34s/it]  2%|▏         | 85/3837 [16:06<11:50:15, 11.36s/it]  2%|▏         | 86/3837 [16:18<11:52:53, 11.40s/it]  2%|▏         | 87/3837 [16:28<11:24:32, 10.95s/it]  2%|▏         | 88/3837 [16:38<11:04:57, 10.64s/it]  2%|▏         | 89/3837 [16:49<11:19:04, 10.87s/it]  2%|▏         | 90/3837 [16:59<11:01:02, 10.59s/it]                                                    {'loss': 5.9488, 'grad_norm': 25.01333236694336, 'learning_rate': 7.758620689655173e-06, 'epoch': 0.02}
+  2%|▏         | 90/3837 [16:59<11:01:02, 10.59s/it]  2%|▏         | 91/3837 [17:12<11:50:20, 11.38s/it]  2%|▏         | 92/3837 [17:24<11:54:26, 11.45s/it]  2%|▏         | 93/3837 [17:35<11:56:07, 11.48s/it]  2%|▏         | 94/3837 [17:47<11:57:13, 11.50s/it]  2%|▏         | 95/3837 [17:57<11:32:33, 11.10s/it]  3%|▎         | 96/3837 [18:09<11:38:49, 11.21s/it]  3%|▎         | 97/3837 [18:20<11:50:40, 11.40s/it]  3%|▎         | 98/3837 [18:32<11:51:06, 11.41s/it]  3%|▎         | 99/3837 [18:42<11:24:47, 10.99s/it]  3%|▎         | 100/3837 [18:53<11:33:22, 11.13s/it]                                                     {'loss': 6.0146, 'grad_norm': 23.80113983154297, 'learning_rate': 8.620689655172414e-06, 'epoch': 0.03}
+  3%|▎         | 100/3837 [18:53<11:33:22, 11.13s/it]  3%|▎         | 101/3837 [19:05<11:42:24, 11.28s/it]  3%|▎         | 102/3837 [19:17<11:46:34, 11.35s/it]  3%|▎         | 103/3837 [19:27<11:30:00, 11.09s/it]  3%|▎         | 104/3837 [19:39<11:39:09, 11.24s/it]  3%|▎         | 105/3837 [19:47<10:44:37, 10.36s/it]  3%|▎         | 106/3837 [19:57<10:34:28, 10.20s/it]  3%|▎         | 107/3837 [20:07<10:26:52, 10.08s/it]  3%|▎         | 108/3837 [20:16<10:22:21, 10.01s/it]  3%|▎         | 109/3837 [20:26<10:19:21,  9.97s/it]  3%|▎         | 110/3837 [20:36<10:18:09,  9.95s/it]                                                     {'loss': 5.7203, 'grad_norm': 26.689817428588867, 'learning_rate': 9.482758620689655e-06, 'epoch': 0.03}
+  3%|▎         | 110/3837 [20:36<10:18:09,  9.95s/it]  3%|▎         | 111/3837 [20:48<10:46:50, 10.42s/it]  3%|▎         | 112/3837 [20:59<11:09:57, 10.79s/it]  3%|▎         | 113/3837 [21:11<11:22:59, 11.00s/it]  3%|▎         | 114/3837 [21:22<11:31:44, 11.15s/it]  3%|▎         | 115/3837 [21:34<11:37:09, 11.24s/it]  3%|▎         | 116/3837 [21:45<11:42:25, 11.33s/it]  3%|▎         | 117/3837 [21:55<11:12:09, 10.84s/it]  3%|▎         | 118/3837 [22:06<11:22:53, 11.02s/it]  3%|▎         | 119/3837 [22:16<11:01:25, 10.67s/it]  3%|▎         | 120/3837 [22:28<11:14:34, 10.89s/it]                                                     {'loss': 5.7365, 'grad_norm': 22.709882736206055, 'learning_rate': 9.999971487192377e-06, 'epoch': 0.03}
+  3%|▎         | 120/3837 [22:28<11:14:34, 10.89s/it]  3%|▎         | 121/3837 [22:39<11:24:46, 11.06s/it]  3%|▎         | 122/3837 [22:49<11:02:28, 10.70s/it]  3%|▎         | 123/3837 [22:59<10:51:31, 10.53s/it]  3%|▎         | 124/3837 [23:09<10:38:27, 10.32s/it]  3%|▎         | 125/3837 [23:20<10:58:29, 10.64s/it]  3%|▎         | 126/3837 [23:30<10:44:33, 10.42s/it]  3%|▎         | 127/3837 [23:40<10:34:11, 10.26s/it]  3%|▎         | 128/3837 [23:52<10:57:47, 10.64s/it]  3%|▎         | 129/3837 [24:03<11:10:55, 10.86s/it]  3%|▎         | 130/3837 [24:14<11:21:29, 11.03s/it]                                                     {'loss': 5.6874, 'grad_norm': 36.200618743896484, 'learning_rate': 9.999650721841219e-06, 'epoch': 0.03}
+  3%|▎         | 130/3837 [24:14<11:21:29, 11.03s/it]  3%|▎         | 131/3837 [24:24<10:58:01, 10.65s/it]  3%|▎         | 132/3837 [24:34<10:46:03, 10.46s/it]  3%|▎         | 133/3837 [24:46<11:06:08, 10.79s/it]  3%|▎         | 134/3837 [24:57<11:18:39, 11.00s/it]  4%|▎         | 135/3837 [25:09<11:26:14, 11.12s/it]  4%|▎         | 136/3837 [25:19<11:03:10, 10.75s/it]  4%|▎         | 137/3837 [25:28<10:45:59, 10.48s/it]  4%|▎         | 138/3837 [25:40<11:05:21, 10.79s/it]  4%|▎         | 139/3837 [25:53<11:51:11, 11.54s/it]  4%|▎         | 140/3837 [26:05<11:54:00, 11.59s/it]                                                     {'loss': 5.9509, 'grad_norm': 29.23406410217285, 'learning_rate': 9.99897357307028e-06, 'epoch': 0.04}
+  4%|▎         | 140/3837 [26:05<11:54:00, 11.59s/it]  4%|▎         | 141/3837 [26:16<11:51:29, 11.55s/it]  4%|▎         | 142/3837 [26:27<11:39:15, 11.35s/it]  4%|▎         | 143/3837 [26:39<11:41:15, 11.39s/it]  4%|▍         | 144/3837 [26:49<11:12:05, 10.92s/it]  4%|▍         | 145/3837 [27:00<11:25:24, 11.14s/it]  4%|▍         | 146/3837 [27:12<11:31:43, 11.24s/it]  4%|▍         | 147/3837 [27:23<11:38:47, 11.36s/it]  4%|▍         | 148/3837 [27:35<11:40:30, 11.39s/it]  4%|▍         | 149/3837 [27:46<11:40:24, 11.39s/it]  4%|▍         | 150/3837 [28:00<12:16:21, 11.98s/it]                                                     {'loss': 5.79, 'grad_norm': 24.628616333007812, 'learning_rate': 9.997940089147847e-06, 'epoch': 0.04}
+  4%|▍         | 150/3837 [28:00<12:16:21, 11.98s/it]  4%|▍         | 151/3837 [28:11<12:06:20, 11.82s/it]  4%|▍         | 152/3837 [28:23<12:01:41, 11.75s/it]  4%|▍         | 153/3837 [28:33<11:28:33, 11.21s/it]  4%|▍         | 154/3837 [28:43<11:07:30, 10.87s/it]  4%|▍         | 155/3837 [28:54<11:17:19, 11.04s/it]  4%|▍         | 156/3837 [29:06<11:25:38, 11.18s/it]  4%|▍         | 157/3837 [29:15<11:01:21, 10.78s/it]  4%|▍         | 158/3837 [29:27<11:13:00, 10.98s/it]  4%|▍         | 159/3837 [29:38<11:23:03, 11.14s/it]  4%|▍         | 160/3837 [29:52<11:59:00, 11.73s/it]                                                     {'loss': 5.5759, 'grad_norm': 28.551050186157227, 'learning_rate': 9.996550343742372e-06, 'epoch': 0.04}
+  4%|▍         | 160/3837 [29:52<11:59:00, 11.73s/it]  4%|▍         | 161/3837 [30:02<11:27:24, 11.22s/it]  4%|▍         | 162/3837 [30:11<11:01:33, 10.80s/it]  4%|▍         | 163/3837 [30:21<10:44:28, 10.52s/it]  4%|▍         | 164/3837 [30:31<10:31:02, 10.31s/it]  4%|▍         | 165/3837 [30:43<10:53:57, 10.69s/it]  4%|▍         | 166/3837 [30:54<11:12:57, 11.00s/it]  4%|▍         | 167/3837 [31:04<10:50:54, 10.64s/it]  4%|▍         | 168/3837 [31:16<11:08:25, 10.93s/it]  4%|▍         | 169/3837 [31:27<11:19:52, 11.12s/it]  4%|▍         | 170/3837 [31:39<11:25:29, 11.22s/it]                                                     {'loss': 5.6453, 'grad_norm': 33.07863998413086, 'learning_rate': 9.994804435917226e-06, 'epoch': 0.04}
+  4%|▍         | 170/3837 [31:39<11:25:29, 11.22s/it]  4%|▍         | 171/3837 [31:49<10:59:49, 10.80s/it]  4%|▍         | 172/3837 [32:02<11:43:10, 11.51s/it]  5%|▍         | 173/3837 [32:12<11:12:45, 11.02s/it]  5%|▍         | 174/3837 [32:23<11:15:42, 11.07s/it]  5%|▍         | 175/3837 [32:34<11:24:04, 11.21s/it]  5%|▍         | 176/3837 [32:46<11:27:54, 11.27s/it]  5%|▍         | 177/3837 [32:56<11:05:29, 10.91s/it]  5%|▍         | 178/3837 [33:07<11:17:04, 11.10s/it]  5%|▍         | 179/3837 [33:17<10:52:44, 10.71s/it]  5%|▍         | 180/3837 [33:25<10:05:19,  9.93s/it]                                                     {'loss': 5.2791, 'grad_norm': 22.246503829956055, 'learning_rate': 9.992702490123616e-06, 'epoch': 0.05}
+  5%|▍         | 180/3837 [33:25<10:05:19,  9.93s/it]  5%|▍         | 181/3837 [33:37<10:33:05, 10.39s/it]  5%|▍         | 182/3837 [33:48<10:51:30, 10.69s/it]  5%|▍         | 183/3837 [34:00<11:06:07, 10.94s/it]  5%|▍         | 184/3837 [34:11<11:14:15, 11.07s/it]  5%|▍         | 185/3837 [34:23<11:20:31, 11.18s/it]  5%|▍         | 186/3837 [34:32<10:55:11, 10.77s/it]  5%|▍         | 187/3837 [34:44<11:09:41, 11.01s/it]  5%|▍         | 188/3837 [34:55<11:19:54, 11.18s/it]  5%|▍         | 189/3837 [35:05<10:56:15, 10.79s/it]  5%|▍         | 190/3837 [35:17<11:09:17, 11.01s/it]                                                     {'loss': 5.4255, 'grad_norm': 20.640499114990234, 'learning_rate': 9.99024465619174e-06, 'epoch': 0.05}
+  5%|▍         | 190/3837 [35:17<11:09:17, 11.01s/it]  5%|▍         | 191/3837 [35:27<10:47:17, 10.65s/it]  5%|▌         | 192/3837 [35:38<11:04:12, 10.93s/it]  5%|▌         | 193/3837 [35:48<10:44:03, 10.60s/it]  5%|▌         | 194/3837 [36:00<11:01:45, 10.90s/it]  5%|▌         | 195/3837 [36:11<11:12:38, 11.08s/it]  5%|▌         | 196/3837 [36:23<11:18:51, 11.19s/it]  5%|▌         | 197/3837 [36:34<11:22:50, 11.26s/it]  5%|▌         | 198/3837 [36:46<11:27:07, 11.33s/it]  5%|▌         | 199/3837 [36:57<11:29:06, 11.37s/it]  5%|▌         | 200/3837 [37:10<12:01:06, 11.90s/it]                                                     {'loss': 5.6609, 'grad_norm': 23.933834075927734, 'learning_rate': 9.987431109320085e-06, 'epoch': 0.05}
+  5%|▌         | 200/3837 [37:10<12:01:06, 11.90s/it]  5%|▌         | 201/3837 [37:20<11:24:32, 11.30s/it]  5%|▌         | 202/3837 [37:31<11:26:52, 11.34s/it]  5%|▌         | 203/3837 [37:43<11:29:51, 11.39s/it]  5%|▌         | 204/3837 [37:55<11:33:10, 11.45s/it]  5%|▌         | 205/3837 [38:06<11:33:46, 11.46s/it]  5%|▌         | 206/3837 [38:18<11:33:22, 11.46s/it]  5%|▌         | 207/3837 [38:29<11:32:18, 11.44s/it]  5%|▌         | 208/3837 [38:39<11:03:39, 10.97s/it]  5%|▌         | 209/3837 [38:49<10:44:34, 10.66s/it]  5%|▌         | 210/3837 [38:59<10:28:58, 10.40s/it]                                                     {'loss': 5.2873, 'grad_norm': 15.145009994506836, 'learning_rate': 9.984262050062952e-06, 'epoch': 0.05}
+  5%|▌         | 210/3837 [38:59<10:28:58, 10.40s/it]  5%|▌         | 211/3837 [39:12<11:19:00, 11.24s/it]  6%|▌         | 212/3837 [39:23<11:22:53, 11.30s/it]  6%|▌         | 213/3837 [39:33<10:55:10, 10.85s/it]  6%|▌         | 214/3837 [39:43<10:37:39, 10.56s/it]  6%|▌         | 215/3837 [39:54<10:55:36, 10.86s/it]  6%|▌         | 216/3837 [40:08<11:37:32, 11.56s/it]  6%|▌         | 217/3837 [40:19<11:35:14, 11.52s/it]  6%|▌         | 218/3837 [40:31<11:35:01, 11.52s/it]  6%|▌         | 219/3837 [40:42<11:36:22, 11.55s/it]  6%|▌         | 220/3837 [40:54<11:36:05, 11.55s/it]                                                     {'loss': 5.4614, 'grad_norm': 29.326797485351562, 'learning_rate': 9.98073770431616e-06, 'epoch': 0.06}
+  6%|▌         | 220/3837 [40:54<11:36:05, 11.55s/it]  6%|▌         | 221/3837 [41:04<11:06:58, 11.07s/it]  6%|▌         | 222/3837 [41:15<11:12:04, 11.15s/it]  6%|▌         | 223/3837 [41:26<11:16:11, 11.23s/it]  6%|▌         | 224/3837 [41:38<11:20:55, 11.31s/it]  6%|▌         | 225/3837 [41:48<10:55:53, 10.90s/it]  6%|▌         | 226/3837 [41:59<11:07:35, 11.09s/it]  6%|▌         | 227/3837 [42:11<11:15:41, 11.23s/it]  6%|▌         | 228/3837 [42:22<11:18:23, 11.28s/it]  6%|▌         | 229/3837 [42:34<11:20:23, 11.31s/it]  6%|▌         | 230/3837 [42:45<11:21:09, 11.33s/it]                                                     {'loss': 5.573, 'grad_norm': 25.808948516845703, 'learning_rate': 9.97685832330093e-06, 'epoch': 0.06}
+  6%|▌         | 230/3837 [42:45<11:21:09, 11.33s/it]  6%|▌         | 231/3837 [42:57<11:24:32, 11.39s/it]  6%|▌         | 232/3837 [43:08<11:26:49, 11.43s/it]  6%|▌         | 233/3837 [43:18<10:59:53, 10.99s/it]  6%|▌         | 234/3837 [43:28<10:42:32, 10.70s/it]  6%|▌         | 235/3837 [43:40<10:58:35, 10.97s/it]  6%|▌         | 236/3837 [43:51<11:07:31, 11.12s/it]  6%|▌         | 237/3837 [44:04<11:43:03, 11.72s/it]  6%|▌         | 238/3837 [44:14<11:07:47, 11.13s/it]  6%|▌         | 239/3837 [44:24<10:43:53, 10.74s/it]  6%|▋         | 240/3837 [44:35<10:58:27, 10.98s/it]                                                     {'loss': 5.4075, 'grad_norm': 28.513263702392578, 'learning_rate': 9.972624183546001e-06, 'epoch': 0.06}
+  6%|▋         | 240/3837 [44:35<10:58:27, 10.98s/it]  6%|▋         | 241/3837 [44:47<11:06:36, 11.12s/it]  6%|▋         | 242/3837 [44:57<10:43:33, 10.74s/it]  6%|▋         | 243/3837 [45:07<10:27:08, 10.47s/it]  6%|▋         | 244/3837 [45:18<10:44:47, 10.77s/it]  6%|▋         | 245/3837 [45:30<10:57:58, 10.99s/it]  6%|▋         | 246/3837 [45:41<11:06:48, 11.14s/it]  6%|▋         | 247/3837 [45:52<11:11:43, 11.23s/it]  6%|▋         | 248/3837 [46:04<11:16:15, 11.31s/it]  6%|▋         | 249/3837 [46:15<11:18:36, 11.35s/it]  7%|▋         | 250/3837 [46:27<11:21:55, 11.41s/it]                                                     {'loss': 5.3587, 'grad_norm': 22.59028434753418, 'learning_rate': 9.968035586867893e-06, 'epoch': 0.07}
+  7%|▋         | 250/3837 [46:27<11:21:55, 11.41s/it]  7%|▋         | 251/3837 [46:37<10:52:52, 10.92s/it]  7%|▋         | 252/3837 [46:47<10:32:37, 10.59s/it]  7%|▋         | 253/3837 [46:56<10:16:54, 10.33s/it]  7%|▋         | 254/3837 [47:08<10:36:28, 10.66s/it]  7%|▋         | 255/3837 [47:19<10:51:19, 10.91s/it]  7%|▋         | 256/3837 [47:31<11:03:38, 11.12s/it]  7%|▋         | 257/3837 [47:41<10:40:28, 10.73s/it]  7%|▋         | 258/3837 [47:52<10:52:11, 10.93s/it]  7%|▋         | 259/3837 [48:03<10:59:52, 11.07s/it]  7%|▋         | 260/3837 [48:15<11:06:56, 11.19s/it]                                                     {'loss': 5.1256, 'grad_norm': 21.76101303100586, 'learning_rate': 9.96309286034941e-06, 'epoch': 0.07}
+  7%|▋         | 260/3837 [48:15<11:06:56, 11.19s/it]  7%|▋         | 261/3837 [48:25<10:49:14, 10.89s/it]  7%|▋         | 262/3837 [48:37<10:59:34, 11.07s/it]  7%|▋         | 263/3837 [48:46<10:38:17, 10.72s/it]  7%|▋         | 264/3837 [48:58<10:50:32, 10.92s/it]  7%|▋         | 265/3837 [49:09<10:59:03, 11.07s/it]  7%|▋         | 266/3837 [49:22<11:36:41, 11.71s/it]  7%|▋         | 267/3837 [49:34<11:31:47, 11.63s/it]  7%|▋         | 268/3837 [49:45<11:26:52, 11.55s/it]  7%|▋         | 269/3837 [49:57<11:25:39, 11.53s/it]  7%|▋         | 270/3837 [50:09<11:28:53, 11.59s/it]                                                     {'loss': 5.3442, 'grad_norm': 24.01523780822754, 'learning_rate': 9.95779635631632e-06, 'epoch': 0.07}
+  7%|▋         | 270/3837 [50:09<11:28:53, 11.59s/it]  7%|▋         | 271/3837 [50:22<11:57:16, 12.07s/it]  7%|▋         | 272/3837 [50:32<11:17:42, 11.41s/it]  7%|▋         | 273/3837 [50:43<11:19:59, 11.45s/it]  7%|▋         | 274/3837 [50:53<10:50:18, 10.95s/it]  7%|▋         | 275/3837 [51:04<10:59:32, 11.11s/it]  7%|▋         | 276/3837 [51:14<10:37:04, 10.73s/it]  7%|▋         | 277/3837 [51:24<10:18:46, 10.43s/it]  7%|▋         | 278/3837 [51:35<10:35:23, 10.71s/it]  7%|▋         | 279/3837 [51:47<10:49:10, 10.95s/it]  7%|▋         | 280/3837 [51:58<10:57:02, 11.08s/it]                                                     {'loss': 5.2615, 'grad_norm': 26.637128829956055, 'learning_rate': 9.952146452312243e-06, 'epoch': 0.07}
+  7%|▋         | 280/3837 [51:58<10:57:02, 11.08s/it]  7%|▋         | 281/3837 [52:10<11:03:23, 11.19s/it]  7%|▋         | 282/3837 [52:21<11:08:17, 11.28s/it]  7%|▋         | 283/3837 [52:31<10:43:05, 10.86s/it]  7%|▋         | 284/3837 [52:42<10:52:30, 11.02s/it]  7%|▋         | 285/3837 [52:54<11:00:46, 11.16s/it]  7%|▋         | 286/3837 [53:05<11:06:02, 11.25s/it]  7%|▋         | 287/3837 [53:17<11:08:22, 11.30s/it]  8%|▊         | 288/3837 [53:28<11:12:24, 11.37s/it]  8%|▊         | 289/3837 [53:40<11:13:47, 11.39s/it]  8%|▊         | 290/3837 [53:51<11:15:06, 11.42s/it]                                                     {'loss': 5.1369, 'grad_norm': 30.170167922973633, 'learning_rate': 9.946143551071731e-06, 'epoch': 0.08}
+  8%|▊         | 290/3837 [53:51<11:15:06, 11.42s/it]  8%|▊         | 291/3837 [54:03<11:16:12, 11.44s/it]  8%|▊         | 292/3837 [54:14<11:16:18, 11.45s/it]  8%|▊         | 293/3837 [54:27<11:36:28, 11.79s/it]  8%|▊         | 294/3837 [54:40<12:02:56, 12.24s/it]  8%|▊         | 295/3837 [54:52<11:49:18, 12.02s/it]  8%|▊         | 296/3837 [55:03<11:37:53, 11.83s/it]  8%|▊         | 297/3837 [55:14<11:31:00, 11.71s/it]  8%|▊         | 298/3837 [55:24<10:57:32, 11.15s/it]  8%|▊         | 299/3837 [55:36<11:03:20, 11.25s/it]  8%|▊         | 300/3837 [55:46<10:37:28, 10.81s/it]                                                     {'loss': 5.3608, 'grad_norm': 19.498395919799805, 'learning_rate': 9.939788080491572e-06, 'epoch': 0.08}
+  8%|▊         | 300/3837 [55:46<10:37:28, 10.81s/it]  8%|▊         | 301/3837 [55:57<10:47:19, 10.98s/it]  8%|▊         | 302/3837 [56:08<10:55:10, 11.12s/it]  8%|▊         | 303/3837 [56:21<11:30:40, 11.73s/it]  8%|▊         | 304/3837 [56:33<11:26:07, 11.65s/it]  8%|▊         | 305/3837 [56:44<11:22:22, 11.59s/it]  8%|▊         | 306/3837 [56:56<11:20:06, 11.56s/it]  8%|▊         | 307/3837 [57:07<11:16:26, 11.50s/it]  8%|▊         | 308/3837 [57:17<10:47:11, 11.00s/it]  8%|▊         | 309/3837 [57:29<10:54:15, 11.13s/it]  8%|▊         | 310/3837 [57:40<10:58:04, 11.19s/it]                                                     {'loss': 5.3208, 'grad_norm': 23.854351043701172, 'learning_rate': 9.933080493600281e-06, 'epoch': 0.08}
+  8%|▊         | 310/3837 [57:40<10:58:04, 11.19s/it]  8%|▊         | 311/3837 [57:50<10:38:46, 10.87s/it]  8%|▊         | 312/3837 [58:02<10:50:58, 11.08s/it]  8%|▊         | 313/3837 [58:13<10:58:17, 11.21s/it]  8%|▊         | 314/3837 [58:26<11:31:33, 11.78s/it]  8%|▊         | 315/3837 [58:38<11:25:51, 11.68s/it]  8%|▊         | 316/3837 [58:49<11:20:54, 11.60s/it]  8%|▊         | 317/3837 [58:57<10:22:50, 10.62s/it]  8%|▊         | 318/3837 [59:09<10:38:14, 10.88s/it]  8%|▊         | 319/3837 [59:19<10:18:23, 10.55s/it]  8%|▊         | 320/3837 [59:30<10:33:03, 10.80s/it]                                                     {'loss': 5.3767, 'grad_norm': 18.571094512939453, 'learning_rate': 9.926021268525808e-06, 'epoch': 0.08}
+  8%|▊         | 320/3837 [59:30<10:33:03, 10.80s/it]  8%|▊         | 321/3837 [59:42<10:45:27, 11.01s/it]  8%|▊         | 322/3837 [59:53<10:52:33, 11.14s/it]  8%|▊         | 323/3837 [1:00:04<10:58:03, 11.24s/it]  8%|▊         | 324/3837 [1:00:14<10:34:02, 10.83s/it]  8%|▊         | 325/3837 [1:00:26<10:48:14, 11.07s/it]  8%|▊         | 326/3837 [1:00:37<10:55:20, 11.20s/it]  9%|▊         | 327/3837 [1:00:47<10:30:59, 10.79s/it]  9%|▊         | 328/3837 [1:00:59<10:42:55, 10.99s/it]  9%|▊         | 329/3837 [1:01:10<10:51:11, 11.14s/it]  9%|▊         | 330/3837 [1:01:22<10:56:42, 11.24s/it]                                                       {'loss': 5.4237, 'grad_norm': 21.687772750854492, 'learning_rate': 9.918610908461455e-06, 'epoch': 0.09}
+  9%|▊         | 330/3837 [1:01:22<10:56:42, 11.24s/it]  9%|▊         | 331/3837 [1:01:33<11:01:12, 11.32s/it]  9%|▊         | 332/3837 [1:01:43<10:35:41, 10.88s/it]  9%|▊         | 333/3837 [1:01:53<10:16:56, 10.56s/it]  9%|▊         | 334/3837 [1:02:03<10:04:10, 10.35s/it]  9%|▊         | 335/3837 [1:02:14<10:23:36, 10.68s/it]  9%|▉         | 336/3837 [1:02:26<10:39:12, 10.95s/it]  9%|▉         | 337/3837 [1:02:37<10:48:35, 11.12s/it]  9%|▉         | 338/3837 [1:02:48<10:45:20, 11.07s/it]  9%|▉         | 339/3837 [1:03:00<10:51:32, 11.18s/it]  9%|▉         | 340/3837 [1:03:11<10:56:56, 11.27s/it]                                                       {'loss': 5.2219, 'grad_norm': 25.41843605041504, 'learning_rate': 9.910849941630018e-06, 'epoch': 0.09}
+  9%|▉         | 340/3837 [1:03:11<10:56:56, 11.27s/it]  9%|▉         | 341/3837 [1:03:21<10:30:33, 10.82s/it]  9%|▉         | 342/3837 [1:03:32<10:43:38, 11.05s/it]  9%|▉         | 343/3837 [1:03:42<10:23:33, 10.71s/it]  9%|▉         | 344/3837 [1:03:54<10:37:48, 10.96s/it]  9%|▉         | 345/3837 [1:04:05<10:44:36, 11.08s/it]  9%|▉         | 346/3837 [1:04:17<10:49:50, 11.17s/it]  9%|▉         | 347/3837 [1:04:28<10:54:50, 11.26s/it]  9%|▉         | 348/3837 [1:04:40<10:58:31, 11.32s/it]  9%|▉         | 349/3837 [1:04:51<11:02:54, 11.40s/it]  9%|▉         | 350/3837 [1:05:03<11:02:53, 11.41s/it]                                                       {'loss': 5.2091, 'grad_norm': 25.540990829467773, 'learning_rate': 9.902738921246122e-06, 'epoch': 0.09}
+  9%|▉         | 350/3837 [1:05:03<11:02:53, 11.41s/it]  9%|▉         | 351/3837 [1:05:14<11:04:05, 11.43s/it]  9%|▉         | 352/3837 [1:05:24<10:35:30, 10.94s/it]  9%|▉         | 353/3837 [1:05:35<10:44:51, 11.11s/it]  9%|▉         | 354/3837 [1:05:45<10:26:33, 10.79s/it]  9%|▉         | 355/3837 [1:05:59<11:07:50, 11.51s/it]  9%|▉         | 356/3837 [1:06:08<10:36:29, 10.97s/it]  9%|▉         | 357/3837 [1:06:18<10:16:39, 10.63s/it]  9%|▉         | 358/3837 [1:06:28<10:03:31, 10.41s/it]  9%|▉         | 359/3837 [1:06:40<10:22:16, 10.74s/it]  9%|▉         | 360/3837 [1:06:53<11:05:44, 11.49s/it]                                                       {'loss': 5.1991, 'grad_norm': 31.44894027709961, 'learning_rate': 9.89427842547679e-06, 'epoch': 0.09}
+  9%|▉         | 360/3837 [1:06:53<11:05:44, 11.49s/it]  9%|▉         | 361/3837 [1:07:04<11:05:57, 11.50s/it]  9%|▉         | 362/3837 [1:07:14<10:34:37, 10.96s/it]  9%|▉         | 363/3837 [1:07:24<10:15:23, 10.63s/it]  9%|▉         | 364/3837 [1:07:35<10:30:58, 10.90s/it] 10%|▉         | 365/3837 [1:07:45<10:11:15, 10.56s/it] 10%|▉         | 366/3837 [1:07:57<10:26:55, 10.84s/it] 10%|▉         | 367/3837 [1:08:08<10:39:36, 11.06s/it] 10%|▉         | 368/3837 [1:08:19<10:37:59, 11.03s/it] 10%|▉         | 369/3837 [1:08:29<10:17:37, 10.69s/it] 10%|▉         | 370/3837 [1:08:39<10:03:45, 10.45s/it]                                                       {'loss': 5.1389, 'grad_norm': 22.592653274536133, 'learning_rate': 9.885469057400234e-06, 'epoch': 0.1}
+ 10%|▉         | 370/3837 [1:08:39<10:03:45, 10.45s/it] 10%|▉         | 371/3837 [1:08:51<10:22:36, 10.78s/it] 10%|▉         | 372/3837 [1:09:04<11:05:12, 11.52s/it] 10%|▉         | 373/3837 [1:09:14<10:35:50, 11.01s/it] 10%|▉         | 374/3837 [1:09:23<10:14:23, 10.64s/it] 10%|▉         | 375/3837 [1:09:35<10:28:48, 10.90s/it] 10%|▉         | 376/3837 [1:09:46<10:40:08, 11.10s/it] 10%|▉         | 377/3837 [1:09:56<10:17:37, 10.71s/it] 10%|▉         | 378/3837 [1:10:08<10:31:13, 10.95s/it] 10%|▉         | 379/3837 [1:10:19<10:40:10, 11.11s/it] 10%|▉         | 380/3837 [1:10:31<10:46:34, 11.22s/it]                                                       {'loss': 5.0448, 'grad_norm': 22.170074462890625, 'learning_rate': 9.876311444962866e-06, 'epoch': 0.1}
+ 10%|▉         | 380/3837 [1:10:31<10:46:34, 11.22s/it] 10%|▉         | 381/3837 [1:10:42<10:52:27, 11.33s/it] 10%|▉         | 382/3837 [1:10:52<10:25:58, 10.87s/it] 10%|▉         | 383/3837 [1:11:04<10:38:22, 11.09s/it] 10%|█         | 384/3837 [1:11:14<10:15:28, 10.69s/it] 10%|█         | 385/3837 [1:11:23<10:02:14, 10.47s/it] 10%|█         | 386/3837 [1:11:35<10:12:38, 10.65s/it] 10%|█         | 387/3837 [1:11:46<10:26:35, 10.90s/it] 10%|█         | 388/3837 [1:11:57<10:34:20, 11.04s/it] 10%|█         | 389/3837 [1:12:09<10:41:14, 11.16s/it] 10%|█         | 390/3837 [1:12:20<10:46:19, 11.25s/it]                                                       {'loss': 5.0568, 'grad_norm': 13.822409629821777, 'learning_rate': 9.866806240934527e-06, 'epoch': 0.1}
+ 10%|█         | 390/3837 [1:12:20<10:46:19, 11.25s/it] 10%|█         | 391/3837 [1:12:32<10:50:07, 11.32s/it] 10%|█         | 392/3837 [1:12:43<10:52:26, 11.36s/it] 10%|█         | 393/3837 [1:12:55<10:55:18, 11.42s/it] 10%|█         | 394/3837 [1:13:06<10:55:26, 11.42s/it] 10%|█         | 395/3837 [1:13:16<10:30:45, 11.00s/it] 10%|█         | 396/3837 [1:13:26<10:10:45, 10.65s/it] 10%|█         | 397/3837 [1:13:36<9:53:57, 10.36s/it]  10%|█         | 398/3837 [1:13:47<10:13:21, 10.70s/it] 10%|█         | 399/3837 [1:13:59<10:27:33, 10.95s/it] 10%|█         | 400/3837 [1:14:09<10:09:43, 10.64s/it]                                                       {'loss': 4.9459, 'grad_norm': 19.269241333007812, 'learning_rate': 9.856954122861978e-06, 'epoch': 0.1}
+ 10%|█         | 400/3837 [1:14:09<10:09:43, 10.64s/it] 10%|█         | 401/3837 [1:14:20<10:24:35, 10.91s/it] 10%|█         | 402/3837 [1:14:32<10:36:00, 11.11s/it] 11%|█         | 403/3837 [1:14:43<10:43:01, 11.24s/it] 11%|█         | 404/3837 [1:14:53<10:20:05, 10.84s/it] 11%|█         | 405/3837 [1:15:03<10:02:01, 10.53s/it] 11%|█         | 406/3837 [1:15:16<10:48:07, 11.33s/it] 11%|█         | 407/3837 [1:15:28<10:51:33, 11.40s/it] 11%|█         | 408/3837 [1:15:39<10:52:04, 11.41s/it] 11%|█         | 409/3837 [1:15:51<10:52:05, 11.41s/it] 11%|█         | 410/3837 [1:16:02<10:52:41, 11.43s/it]                                                       {'loss': 5.0611, 'grad_norm': 17.852279663085938, 'learning_rate': 9.846755793020579e-06, 'epoch': 0.11}
+ 11%|█         | 410/3837 [1:16:02<10:52:41, 11.43s/it] 11%|█         | 411/3837 [1:16:12<10:26:49, 10.98s/it] 11%|█         | 412/3837 [1:16:24<10:35:41, 11.14s/it] 11%|█         | 413/3837 [1:16:35<10:43:59, 11.28s/it] 11%|█         | 414/3837 [1:16:47<10:46:26, 11.33s/it] 11%|█         | 415/3837 [1:16:56<10:20:34, 10.88s/it] 11%|█         | 416/3837 [1:17:08<10:31:44, 11.08s/it] 11%|█         | 417/3837 [1:17:19<10:38:18, 11.20s/it] 11%|█         | 418/3837 [1:17:31<10:43:23, 11.29s/it] 11%|█         | 419/3837 [1:17:42<10:47:20, 11.36s/it] 11%|█         | 420/3837 [1:17:54<10:47:46, 11.37s/it]                                                       {'loss': 5.3688, 'grad_norm': 21.483306884765625, 'learning_rate': 9.836211978364248e-06, 'epoch': 0.11}
+ 11%|█         | 420/3837 [1:17:54<10:47:46, 11.37s/it] 11%|█         | 421/3837 [1:18:06<10:53:47, 11.48s/it] 11%|█         | 422/3837 [1:18:17<10:53:40, 11.48s/it] 11%|█         | 423/3837 [1:18:27<10:27:15, 11.02s/it] 11%|█         | 424/3837 [1:18:39<10:39:39, 11.24s/it] 11%|█         | 425/3837 [1:18:50<10:43:01, 11.31s/it] 11%|█         | 426/3837 [1:19:02<10:45:50, 11.36s/it] 11%|█         | 427/3837 [1:19:12<10:19:16, 10.90s/it] 11%|█         | 428/3837 [1:19:21<10:01:52, 10.59s/it] 11%|█         | 429/3837 [1:19:31<9:47:00, 10.33s/it]  11%|█         | 430/3837 [1:19:43<10:07:51, 10.70s/it]                                                       {'loss': 5.1688, 'grad_norm': 17.595417022705078, 'learning_rate': 9.825323430473626e-06, 'epoch': 0.11}
+ 11%|█         | 430/3837 [1:19:43<10:07:51, 10.70s/it] 11%|█         | 431/3837 [1:19:53<9:53:05, 10.45s/it]  11%|█▏        | 432/3837 [1:20:02<9:41:57, 10.25s/it] 11%|█▏        | 433/3837 [1:20:12<9:35:40, 10.15s/it] 11%|█▏        | 434/3837 [1:20:24<9:59:51, 10.58s/it] 11%|█▏        | 435/3837 [1:20:35<10:15:57, 10.86s/it] 11%|█▏        | 436/3837 [1:20:47<10:24:38, 11.02s/it] 11%|█▏        | 437/3837 [1:20:58<10:31:43, 11.15s/it] 11%|█▏        | 438/3837 [1:21:10<10:35:29, 11.22s/it] 11%|█▏        | 439/3837 [1:21:21<10:41:00, 11.32s/it] 11%|█▏        | 440/3837 [1:21:31<10:20:10, 10.95s/it]                                                       {'loss': 5.1724, 'grad_norm': 18.144386291503906, 'learning_rate': 9.814090925502526e-06, 'epoch': 0.11}
+ 11%|█▏        | 440/3837 [1:21:31<10:20:10, 10.95s/it] 11%|█▏        | 441/3837 [1:21:43<10:28:37, 11.11s/it] 12%|█▏        | 442/3837 [1:21:54<10:33:40, 11.20s/it] 12%|█▏        | 443/3837 [1:22:06<10:36:56, 11.26s/it] 12%|█▏        | 444/3837 [1:22:17<10:41:44, 11.35s/it] 12%|█▏        | 445/3837 [1:22:29<10:42:33, 11.37s/it] 12%|█▏        | 446/3837 [1:22:38<10:18:19, 10.94s/it] 12%|█▏        | 447/3837 [1:22:52<10:56:28, 11.62s/it] 12%|█▏        | 448/3837 [1:23:03<10:55:48, 11.61s/it] 12%|█▏        | 449/3837 [1:23:15<10:52:46, 11.56s/it] 12%|█▏        | 450/3837 [1:23:26<10:50:52, 11.53s/it]                                                       {'loss': 5.3381, 'grad_norm': 22.921968460083008, 'learning_rate': 9.80251526412258e-06, 'epoch': 0.12}
+ 12%|█▏        | 450/3837 [1:23:26<10:50:52, 11.53s/it] 12%|█▏        | 451/3837 [1:23:38<10:50:44, 11.53s/it] 12%|█▏        | 452/3837 [1:23:49<10:51:06, 11.54s/it] 12%|█▏        | 453/3837 [1:23:59<10:21:18, 11.02s/it] 12%|█▏        | 454/3837 [1:24:11<10:32:39, 11.22s/it] 12%|█▏        | 455/3837 [1:24:22<10:36:07, 11.29s/it] 12%|█▏        | 456/3837 [1:24:35<11:07:38, 11.85s/it] 12%|█▏        | 457/3837 [1:24:45<10:34:06, 11.26s/it] 12%|█▏        | 458/3837 [1:24:57<10:38:37, 11.34s/it] 12%|█▏        | 459/3837 [1:25:08<10:40:42, 11.38s/it] 12%|█▏        | 460/3837 [1:25:20<10:43:35, 11.43s/it]                                                       {'loss': 5.2437, 'grad_norm': 17.377622604370117, 'learning_rate': 9.790597271466192e-06, 'epoch': 0.12}
+ 12%|█▏        | 460/3837 [1:25:20<10:43:35, 11.43s/it] 12%|█▏        | 461/3837 [1:25:30<10:16:14, 10.95s/it] 12%|█▏        | 462/3837 [1:25:41<10:24:11, 11.10s/it] 12%|█▏        | 463/3837 [1:25:52<10:28:52, 11.18s/it] 12%|█▏        | 464/3837 [1:26:02<10:05:21, 10.77s/it] 12%|█▏        | 465/3837 [1:26:12<9:49:33, 10.49s/it]  12%|█▏        | 466/3837 [1:26:24<10:06:10, 10.79s/it] 12%|█▏        | 467/3837 [1:26:35<10:17:51, 11.00s/it] 12%|█▏        | 468/3837 [1:26:47<10:24:59, 11.13s/it] 12%|█▏        | 469/3837 [1:26:56<10:01:55, 10.72s/it] 12%|█▏        | 470/3837 [1:27:08<10:13:31, 10.93s/it]                                                       {'loss': 5.0667, 'grad_norm': 19.573436737060547, 'learning_rate': 9.778337797067697e-06, 'epoch': 0.12}
+ 12%|█▏        | 470/3837 [1:27:08<10:13:31, 10.93s/it] 12%|█▏        | 471/3837 [1:27:19<10:23:16, 11.11s/it] 12%|█▏        | 472/3837 [1:27:29<10:02:25, 10.74s/it] 12%|█▏        | 473/3837 [1:27:41<10:13:24, 10.94s/it] 12%|█▏        | 474/3837 [1:27:50<9:55:19, 10.62s/it]  12%|█▏        | 475/3837 [1:28:02<10:08:05, 10.85s/it] 12%|█▏        | 476/3837 [1:28:12<9:50:28, 10.54s/it]  12%|█▏        | 477/3837 [1:28:23<10:07:55, 10.86s/it] 12%|█▏        | 478/3837 [1:28:35<10:19:39, 11.07s/it] 12%|█▏        | 479/3837 [1:28:48<10:55:56, 11.72s/it] 13%|█▎        | 480/3837 [1:28:58<10:23:50, 11.15s/it]                                                       {'loss': 5.1604, 'grad_norm': 17.62881851196289, 'learning_rate': 9.765737714802825e-06, 'epoch': 0.13}
+ 13%|█▎        | 480/3837 [1:28:58<10:23:50, 11.15s/it] 13%|█▎        | 481/3837 [1:29:08<10:01:42, 10.76s/it] 13%|█▎        | 482/3837 [1:29:21<10:42:17, 11.49s/it] 13%|█▎        | 483/3837 [1:29:31<10:13:10, 10.97s/it] 13%|█▎        | 484/3837 [1:29:41<9:55:03, 10.65s/it]  13%|█▎        | 485/3837 [1:29:52<10:10:49, 10.93s/it] 13%|█▎        | 486/3837 [1:30:05<10:47:41, 11.60s/it] 13%|█▎        | 487/3837 [1:30:15<10:19:02, 11.09s/it] 13%|█▎        | 488/3837 [1:30:27<10:24:26, 11.19s/it] 13%|█▎        | 489/3837 [1:30:38<10:28:20, 11.26s/it] 13%|█▎        | 490/3837 [1:30:49<10:30:50, 11.31s/it]                                                       {'loss': 5.0928, 'grad_norm': 21.49463653564453, 'learning_rate': 9.7527979228264e-06, 'epoch': 0.13}
+ 13%|█▎        | 490/3837 [1:30:49<10:30:50, 11.31s/it] 13%|█▎        | 491/3837 [1:30:59<10:05:09, 10.85s/it] 13%|█▎        | 492/3837 [1:31:11<10:16:06, 11.05s/it] 13%|█▎        | 493/3837 [1:31:21<9:56:30, 10.70s/it]  13%|█▎        | 494/3837 [1:31:31<9:45:42, 10.51s/it] 13%|█▎        | 495/3837 [1:31:40<9:32:06, 10.27s/it] 13%|█▎        | 496/3837 [1:31:52<9:52:20, 10.64s/it] 13%|█▎        | 497/3837 [1:32:03<10:05:39, 10.88s/it] 13%|█▎        | 498/3837 [1:32:13<9:48:07, 10.57s/it]  13%|█▎        | 499/3837 [1:32:25<10:04:31, 10.87s/it] 13%|█▎        | 500/3837 [1:32:36<10:14:22, 11.05s/it]                                                       {'loss': 5.075, 'grad_norm': 18.050058364868164, 'learning_rate': 9.739519343508314e-06, 'epoch': 0.13}
+ 13%|█▎        | 500/3837 [1:32:36<10:14:22, 11.05s/it] 13%|█▎        | 501/3837 [1:32:48<10:21:33, 11.18s/it] 13%|█▎        | 502/3837 [1:32:59<10:26:15, 11.27s/it] 13%|█▎        | 503/3837 [1:33:09<10:03:13, 10.86s/it] 13%|█▎        | 504/3837 [1:33:19<9:47:30, 10.58s/it]  13%|█▎        | 505/3837 [1:33:29<9:39:40, 10.44s/it] 13%|█▎        | 506/3837 [1:33:41<9:56:15, 10.74s/it] 13%|█▎        | 507/3837 [1:33:52<10:09:57, 10.99s/it] 13%|█▎        | 508/3837 [1:34:04<10:17:34, 11.13s/it] 13%|█▎        | 509/3837 [1:34:15<10:22:38, 11.23s/it] 13%|█▎        | 510/3837 [1:34:25<9:58:21, 10.79s/it]                                                       {'loss': 5.0903, 'grad_norm': 19.688812255859375, 'learning_rate': 9.725902923367792e-06, 'epoch': 0.13}
+ 13%|█▎        | 510/3837 [1:34:25<9:58:21, 10.79s/it] 13%|█▎        | 511/3837 [1:34:35<9:43:32, 10.53s/it] 13%|█▎        | 512/3837 [1:34:46<9:59:56, 10.83s/it] 13%|█▎        | 513/3837 [1:34:58<10:09:12, 11.00s/it] 13%|█▎        | 514/3837 [1:35:07<9:49:21, 10.64s/it]  13%|█▎        | 515/3837 [1:35:19<10:02:07, 10.88s/it] 13%|█▎        | 516/3837 [1:35:29<9:43:33, 10.54s/it]  13%|█▎        | 517/3837 [1:35:38<9:31:18, 10.32s/it] 14%|█▎        | 518/3837 [1:35:50<9:53:25, 10.73s/it] 14%|█▎        | 519/3837 [1:36:02<10:07:02, 10.98s/it] 14%|█▎        | 520/3837 [1:36:13<10:15:21, 11.13s/it]                                                       {'loss': 4.9269, 'grad_norm': 19.041973114013672, 'learning_rate': 9.711949633005909e-06, 'epoch': 0.14}
+ 14%|█▎        | 520/3837 [1:36:13<10:15:21, 11.13s/it] 14%|█▎        | 521/3837 [1:36:25<10:19:44, 11.21s/it] 14%|█▎        | 522/3837 [1:36:36<10:25:37, 11.32s/it] 14%|█▎        | 523/3837 [1:36:48<10:26:44, 11.35s/it] 14%|█▎        | 524/3837 [1:36:57<10:02:52, 10.92s/it] 14%|█▎        | 525/3837 [1:37:09<10:11:44, 11.08s/it] 14%|█▎        | 526/3837 [1:37:19<9:49:53, 10.69s/it]  14%|█▎        | 527/3837 [1:37:30<10:04:50, 10.96s/it] 14%|█▍        | 528/3837 [1:37:42<10:12:14, 11.10s/it] 14%|█▍        | 529/3837 [1:37:53<10:17:23, 11.20s/it] 14%|█▍        | 530/3837 [1:38:05<10:24:13, 11.33s/it]                                                       {'loss': 4.8544, 'grad_norm': 18.476308822631836, 'learning_rate': 9.69766046703641e-06, 'epoch': 0.14}
+ 14%|█▍        | 530/3837 [1:38:05<10:24:13, 11.33s/it] 14%|█▍        | 531/3837 [1:38:16<10:26:32, 11.37s/it] 14%|█▍        | 532/3837 [1:38:28<10:28:54, 11.42s/it] 14%|█▍        | 533/3837 [1:38:39<10:30:26, 11.45s/it] 14%|█▍        | 534/3837 [1:38:51<10:31:29, 11.47s/it] 14%|█▍        | 535/3837 [1:39:02<10:32:54, 11.50s/it] 14%|█▍        | 536/3837 [1:39:14<10:30:21, 11.46s/it] 14%|█▍        | 537/3837 [1:39:24<10:02:58, 10.96s/it] 14%|█▍        | 538/3837 [1:39:35<10:10:09, 11.10s/it] 14%|█▍        | 539/3837 [1:39:45<9:48:38, 10.71s/it]  14%|█▍        | 540/3837 [1:39:55<9:34:09, 10.45s/it]                                                      {'loss': 4.9984, 'grad_norm': 15.722190856933594, 'learning_rate': 9.683036444014817e-06, 'epoch': 0.14}
+ 14%|█▍        | 540/3837 [1:39:55<9:34:09, 10.45s/it] 14%|█▍        | 541/3837 [1:40:06<9:51:36, 10.77s/it] 14%|█▍        | 542/3837 [1:40:17<9:56:20, 10.86s/it] 14%|█▍        | 543/3837 [1:40:29<10:06:04, 11.04s/it] 14%|█▍        | 544/3837 [1:40:40<10:12:56, 11.17s/it] 14%|█▍        | 545/3837 [1:40:50<9:53:56, 10.83s/it]  14%|█▍        | 546/3837 [1:41:00<9:36:57, 10.52s/it] 14%|█▍        | 547/3837 [1:41:11<9:51:59, 10.80s/it] 14%|█▍        | 548/3837 [1:41:21<9:35:38, 10.50s/it] 14%|█▍        | 549/3837 [1:41:33<9:53:22, 10.83s/it] 14%|█▍        | 550/3837 [1:41:44<10:04:11, 11.03s/it]                                                       {'loss': 4.8977, 'grad_norm': 21.487024307250977, 'learning_rate': 9.668078606365816e-06, 'epoch': 0.14}
+ 14%|█▍        | 550/3837 [1:41:44<10:04:11, 11.03s/it] 14%|█▍        | 551/3837 [1:41:57<10:38:42, 11.66s/it] 14%|█▍        | 552/3837 [1:42:09<10:37:48, 11.65s/it] 14%|█▍        | 553/3837 [1:42:20<10:33:35, 11.58s/it] 14%|█▍        | 554/3837 [1:42:32<10:31:01, 11.53s/it] 14%|█▍        | 555/3837 [1:42:42<10:01:18, 10.99s/it] 14%|█▍        | 556/3837 [1:42:53<10:07:57, 11.12s/it] 15%|█▍        | 557/3837 [1:43:04<10:11:52, 11.19s/it] 15%|█▍        | 558/3837 [1:43:16<10:18:52, 11.32s/it] 15%|█▍        | 559/3837 [1:43:27<10:20:22, 11.36s/it] 15%|█▍        | 560/3837 [1:43:39<10:22:23, 11.40s/it]                                                       {'loss': 4.901, 'grad_norm': 18.666223526000977, 'learning_rate': 9.652788020308952e-06, 'epoch': 0.15}
+ 15%|█▍        | 560/3837 [1:43:39<10:22:23, 11.40s/it] 15%|█▍        | 561/3837 [1:43:50<10:24:04, 11.43s/it] 15%|█▍        | 562/3837 [1:44:02<10:28:22, 11.51s/it] 15%|█▍        | 563/3837 [1:44:14<10:26:39, 11.48s/it] 15%|█▍        | 564/3837 [1:44:25<10:25:41, 11.47s/it] 15%|█▍        | 565/3837 [1:44:35<9:59:59, 11.00s/it]  15%|█▍        | 566/3837 [1:44:46<10:08:42, 11.17s/it] 15%|█▍        | 567/3837 [1:44:57<9:50:57, 10.84s/it]  15%|█▍        | 568/3837 [1:45:06<9:35:08, 10.56s/it] 15%|█▍        | 569/3837 [1:45:18<9:49:52, 10.83s/it] 15%|█▍        | 570/3837 [1:45:29<9:59:55, 11.02s/it]                                                      {'loss': 4.9971, 'grad_norm': 20.14147186279297, 'learning_rate': 9.637165775782637e-06, 'epoch': 0.15}
+ 15%|█▍        | 570/3837 [1:45:29<9:59:55, 11.02s/it] 15%|█▍        | 571/3837 [1:45:39<9:41:22, 10.68s/it] 15%|█▍        | 572/3837 [1:45:51<9:54:51, 10.93s/it] 15%|█▍        | 573/3837 [1:46:02<10:03:26, 11.09s/it] 15%|█▍        | 574/3837 [1:46:10<9:14:07, 10.19s/it]  15%|█▍        | 575/3837 [1:46:22<9:35:35, 10.59s/it] 15%|█▌        | 576/3837 [1:46:33<9:50:36, 10.87s/it] 15%|█▌        | 577/3837 [1:46:45<9:59:54, 11.04s/it] 15%|█▌        | 578/3837 [1:46:56<10:07:48, 11.19s/it] 15%|█▌        | 579/3837 [1:47:08<10:13:29, 11.30s/it] 15%|█▌        | 580/3837 [1:47:19<10:17:34, 11.38s/it]                                                       {'loss': 5.0534, 'grad_norm': 23.309844970703125, 'learning_rate': 9.621212986366443e-06, 'epoch': 0.15}
+ 15%|█▌        | 580/3837 [1:47:19<10:17:34, 11.38s/it] 15%|█▌        | 581/3837 [1:47:31<10:18:00, 11.39s/it] 15%|█▌        | 582/3837 [1:47:41<9:54:58, 10.97s/it]  15%|█▌        | 583/3837 [1:47:52<10:04:41, 11.15s/it] 15%|█▌        | 584/3837 [1:48:02<9:41:52, 10.73s/it]  15%|█▌        | 585/3837 [1:48:14<9:54:14, 10.96s/it] 15%|█▌        | 586/3837 [1:48:25<10:01:12, 11.10s/it] 15%|█▌        | 587/3837 [1:48:37<10:07:32, 11.22s/it] 15%|█▌        | 588/3837 [1:48:48<10:11:51, 11.30s/it] 15%|█▌        | 589/3837 [1:49:00<10:17:29, 11.41s/it] 15%|█▌        | 590/3837 [1:49:12<10:22:49, 11.51s/it]                                                       {'loss': 5.0522, 'grad_norm': 13.043556213378906, 'learning_rate': 9.60493078920174e-06, 'epoch': 0.15}
+ 15%|█▌        | 590/3837 [1:49:12<10:22:49, 11.51s/it] 15%|█▌        | 591/3837 [1:49:23<10:23:29, 11.52s/it] 15%|█▌        | 592/3837 [1:49:35<10:22:56, 11.52s/it] 15%|█▌        | 593/3837 [1:49:45<10:00:18, 11.10s/it] 15%|█▌        | 594/3837 [1:49:56<10:05:37, 11.20s/it] 16%|█▌        | 595/3837 [1:50:06<9:44:46, 10.82s/it]  16%|█▌        | 596/3837 [1:50:16<9:27:16, 10.50s/it] 16%|█▌        | 597/3837 [1:50:27<9:44:28, 10.82s/it] 16%|█▌        | 598/3837 [1:50:37<9:28:30, 10.53s/it] 16%|█▌        | 599/3837 [1:50:49<9:47:23, 10.88s/it] 16%|█▌        | 600/3837 [1:51:00<9:57:21, 11.07s/it]                                                      {'loss': 5.0414, 'grad_norm': 20.287921905517578, 'learning_rate': 9.588320344910619e-06, 'epoch': 0.16}
+ 16%|█▌        | 600/3837 [1:51:00<9:57:21, 11.07s/it] 16%|█▌        | 601/3837 [1:51:10<9:36:39, 10.69s/it] 16%|█▌        | 602/3837 [1:51:20<9:20:34, 10.40s/it] 16%|█▌        | 603/3837 [1:51:31<9:36:14, 10.69s/it] 16%|█▌        | 604/3837 [1:51:43<9:48:52, 10.93s/it] 16%|█▌        | 605/3837 [1:51:53<9:32:12, 10.62s/it] 16%|█▌        | 606/3837 [1:52:03<9:18:04, 10.36s/it] 16%|█▌        | 607/3837 [1:52:12<9:09:10, 10.20s/it] 16%|█▌        | 608/3837 [1:52:22<9:03:32, 10.10s/it] 16%|█▌        | 609/3837 [1:52:34<9:26:39, 10.53s/it] 16%|█▌        | 610/3837 [1:52:44<9:16:10, 10.34s/it]                                                      {'loss': 4.6986, 'grad_norm': 14.688277244567871, 'learning_rate': 9.571382837513185e-06, 'epoch': 0.16}
+ 16%|█▌        | 610/3837 [1:52:44<9:16:10, 10.34s/it] 16%|█▌        | 611/3837 [1:52:55<9:33:36, 10.67s/it] 16%|█▌        | 612/3837 [1:53:07<9:46:15, 10.91s/it] 16%|█▌        | 613/3837 [1:53:18<9:54:06, 11.06s/it] 16%|█▌        | 614/3837 [1:53:29<10:01:22, 11.20s/it] 16%|█▌        | 615/3837 [1:53:39<9:40:39, 10.81s/it]  16%|█▌        | 616/3837 [1:53:49<9:23:52, 10.50s/it] 16%|█▌        | 617/3837 [1:54:01<9:39:12, 10.79s/it] 16%|█▌        | 618/3837 [1:54:12<9:49:29, 10.99s/it] 16%|█▌        | 619/3837 [1:54:24<9:56:21, 11.12s/it] 16%|█▌        | 620/3837 [1:54:35<10:02:40, 11.24s/it]                                                       {'loss': 4.9974, 'grad_norm': 18.477903366088867, 'learning_rate': 9.554119474343135e-06, 'epoch': 0.16}
+ 16%|█▌        | 620/3837 [1:54:35<10:02:40, 11.24s/it] 16%|█▌        | 621/3837 [1:54:47<10:06:25, 11.31s/it] 16%|█▌        | 622/3837 [1:54:58<10:08:30, 11.36s/it] 16%|█▌        | 623/3837 [1:55:09<10:10:23, 11.39s/it] 16%|█▋        | 624/3837 [1:55:19<9:43:55, 10.90s/it]  16%|█▋        | 625/3837 [1:55:29<9:26:31, 10.58s/it] 16%|█▋        | 626/3837 [1:55:40<9:39:42, 10.83s/it] 16%|█▋        | 627/3837 [1:55:50<9:23:02, 10.52s/it] 16%|█▋        | 628/3837 [1:56:00<9:10:58, 10.30s/it] 16%|█▋        | 629/3837 [1:56:12<9:31:06, 10.68s/it] 16%|█▋        | 630/3837 [1:56:23<9:46:23, 10.97s/it]                                                      {'loss': 4.7439, 'grad_norm': 16.775569915771484, 'learning_rate': 9.536531485961713e-06, 'epoch': 0.16}
+ 16%|█▋        | 630/3837 [1:56:23<9:46:23, 10.97s/it] 16%|█▋        | 631/3837 [1:56:35<9:53:58, 11.12s/it] 16%|█▋        | 632/3837 [1:56:46<9:58:19, 11.20s/it] 16%|█▋        | 633/3837 [1:56:56<9:35:35, 10.78s/it] 17%|█▋        | 634/3837 [1:57:07<9:47:31, 11.01s/it] 17%|█▋        | 635/3837 [1:57:18<9:33:01, 10.74s/it] 17%|█▋        | 636/3837 [1:57:29<9:45:52, 10.98s/it] 17%|█▋        | 637/3837 [1:57:41<9:52:45, 11.11s/it] 17%|█▋        | 638/3837 [1:57:50<9:31:04, 10.71s/it] 17%|█▋        | 639/3837 [1:58:02<9:42:20, 10.93s/it] 17%|█▋        | 640/3837 [1:58:15<10:16:59, 11.58s/it]                                                       {'loss': 4.6874, 'grad_norm': 18.829345703125, 'learning_rate': 9.518620126069985e-06, 'epoch': 0.17}
+ 17%|█▋        | 640/3837 [1:58:15<10:16:59, 11.58s/it] 17%|█▋        | 641/3837 [1:58:25<9:48:33, 11.05s/it]  17%|█▋        | 642/3837 [1:58:38<10:23:03, 11.70s/it] 17%|█▋        | 643/3837 [1:58:49<10:20:43, 11.66s/it] 17%|█▋        | 644/3837 [1:59:01<10:19:43, 11.65s/it] 17%|█▋        | 645/3837 [1:59:13<10:16:46, 11.59s/it] 17%|█▋        | 646/3837 [1:59:22<9:47:45, 11.05s/it]  17%|█▋        | 647/3837 [1:59:34<9:53:13, 11.16s/it] 17%|█▋        | 648/3837 [1:59:44<9:33:13, 10.79s/it] 17%|█▋        | 649/3837 [1:59:55<9:44:20, 11.00s/it] 17%|█▋        | 650/3837 [2:00:05<9:26:00, 10.66s/it]                                                      {'loss': 4.8453, 'grad_norm': 17.522567749023438, 'learning_rate': 9.50038667141948e-06, 'epoch': 0.17}
+ 17%|█▋        | 650/3837 [2:00:05<9:26:00, 10.66s/it] 17%|█▋        | 651/3837 [2:00:15<9:15:02, 10.45s/it] 17%|█▋        | 652/3837 [2:00:26<9:30:18, 10.74s/it] 17%|█▋        | 653/3837 [2:00:36<9:18:32, 10.53s/it] 17%|█▋        | 654/3837 [2:00:48<9:34:05, 10.82s/it] 17%|█▋        | 655/3837 [2:00:58<9:20:56, 10.58s/it] 17%|█▋        | 656/3837 [2:01:08<9:08:05, 10.34s/it] 17%|█▋        | 657/3837 [2:01:18<8:59:58, 10.19s/it] 17%|█▋        | 658/3837 [2:01:27<8:54:47, 10.09s/it] 17%|█▋        | 659/3837 [2:01:39<9:16:17, 10.50s/it] 17%|█▋        | 660/3837 [2:01:50<9:32:29, 10.81s/it]                                                      {'loss': 4.7213, 'grad_norm': 18.713659286499023, 'learning_rate': 9.481832421721169e-06, 'epoch': 0.17}
+ 17%|█▋        | 660/3837 [2:01:50<9:32:29, 10.81s/it] 17%|█▋        | 661/3837 [2:02:02<9:42:14, 11.00s/it] 17%|█▋        | 662/3837 [2:02:13<9:48:01, 11.11s/it] 17%|█▋        | 663/3837 [2:02:23<9:26:47, 10.71s/it] 17%|█▋        | 664/3837 [2:02:34<9:38:35, 10.94s/it] 17%|█▋        | 665/3837 [2:02:46<9:47:23, 11.11s/it] 17%|█▋        | 666/3837 [2:02:57<9:53:08, 11.22s/it] 17%|█▋        | 667/3837 [2:03:09<9:57:52, 11.32s/it] 17%|█▋        | 668/3837 [2:03:19<9:32:51, 10.85s/it] 17%|█▋        | 669/3837 [2:03:30<9:43:03, 11.04s/it] 17%|█▋        | 670/3837 [2:03:42<9:48:03, 11.14s/it]                                                      {'loss': 4.8567, 'grad_norm': 20.204282760620117, 'learning_rate': 9.46295869955284e-06, 'epoch': 0.17}
+ 17%|█▋        | 670/3837 [2:03:42<9:48:03, 11.14s/it] 17%|█▋        | 671/3837 [2:03:53<9:51:06, 11.20s/it] 18%|█▊        | 672/3837 [2:04:03<9:30:53, 10.82s/it] 18%|█▊        | 673/3837 [2:04:14<9:40:17, 11.00s/it] 18%|█▊        | 674/3837 [2:04:26<9:48:43, 11.17s/it] 18%|█▊        | 675/3837 [2:04:37<9:54:06, 11.27s/it] 18%|█▊        | 676/3837 [2:04:49<9:57:48, 11.35s/it] 18%|█▊        | 677/3837 [2:04:59<9:35:44, 10.93s/it] 18%|█▊        | 678/3837 [2:05:10<9:44:50, 11.11s/it] 18%|█▊        | 679/3837 [2:05:22<9:49:25, 11.20s/it] 18%|█▊        | 680/3837 [2:05:33<9:54:21, 11.30s/it]                                                      {'loss': 4.9081, 'grad_norm': 16.129371643066406, 'learning_rate': 9.443766850264801e-06, 'epoch': 0.18}
+ 18%|█▊        | 680/3837 [2:05:33<9:54:21, 11.30s/it] 18%|█▊        | 681/3837 [2:05:45<9:56:28, 11.34s/it] 18%|█▊        | 682/3837 [2:05:56<9:58:43, 11.39s/it] 18%|█▊        | 683/3837 [2:06:06<9:35:47, 10.95s/it] 18%|█▊        | 684/3837 [2:06:18<9:45:21, 11.14s/it] 18%|█▊        | 685/3837 [2:06:29<9:50:26, 11.24s/it] 18%|█▊        | 686/3837 [2:06:41<9:53:16, 11.30s/it] 18%|█▊        | 687/3837 [2:06:52<9:56:23, 11.36s/it] 18%|█▊        | 688/3837 [2:07:02<9:32:34, 10.91s/it] 18%|█▊        | 689/3837 [2:07:12<9:17:16, 10.62s/it] 18%|█▊        | 690/3837 [2:07:24<9:31:18, 10.89s/it]                                                      {'loss': 4.9269, 'grad_norm': 25.332008361816406, 'learning_rate': 9.424258241883991e-06, 'epoch': 0.18}
+ 18%|█▊        | 690/3837 [2:07:24<9:31:18, 10.89s/it] 18%|█▊        | 691/3837 [2:07:37<10:08:03, 11.60s/it] 18%|█▊        | 692/3837 [2:07:48<10:04:56, 11.54s/it] 18%|█▊        | 693/3837 [2:07:58<9:39:20, 11.06s/it]  18%|█▊        | 694/3837 [2:08:10<9:46:59, 11.21s/it] 18%|█▊        | 695/3837 [2:08:21<9:52:11, 11.31s/it] 18%|█▊        | 696/3837 [2:08:31<9:30:36, 10.90s/it] 18%|█▊        | 697/3837 [2:08:41<9:15:19, 10.61s/it] 18%|█▊        | 698/3837 [2:08:53<9:28:46, 10.87s/it] 18%|█▊        | 699/3837 [2:09:02<9:10:14, 10.52s/it] 18%|█▊        | 700/3837 [2:09:12<8:57:14, 10.28s/it]                                                      {'loss': 4.7581, 'grad_norm': 15.747159957885742, 'learning_rate': 9.404434265016467e-06, 'epoch': 0.18}
+ 18%|█▊        | 700/3837 [2:09:12<8:57:14, 10.28s/it] 18%|█▊        | 701/3837 [2:09:23<9:14:27, 10.61s/it] 18%|█▊        | 702/3837 [2:09:35<9:29:00, 10.89s/it] 18%|█▊        | 703/3837 [2:09:45<9:11:36, 10.56s/it] 18%|█▊        | 704/3837 [2:09:56<9:26:24, 10.85s/it] 18%|█▊        | 705/3837 [2:10:08<9:34:36, 11.01s/it] 18%|█▊        | 706/3837 [2:10:17<9:14:45, 10.63s/it] 18%|█▊        | 707/3837 [2:10:29<9:27:31, 10.88s/it] 18%|█▊        | 708/3837 [2:10:40<9:36:49, 11.06s/it] 18%|█▊        | 709/3837 [2:10:52<9:44:18, 11.21s/it] 19%|█▊        | 710/3837 [2:11:05<10:14:15, 11.79s/it]                                                       {'loss': 4.9649, 'grad_norm': 20.14042854309082, 'learning_rate': 9.384296332748276e-06, 'epoch': 0.19}
+ 19%|█▊        | 710/3837 [2:11:05<10:14:15, 11.79s/it] 19%|█▊        | 711/3837 [2:11:16<10:08:00, 11.67s/it] 19%|█▊        | 712/3837 [2:11:28<10:05:10, 11.62s/it] 19%|█▊        | 713/3837 [2:11:39<10:03:33, 11.59s/it] 19%|█▊        | 714/3837 [2:11:51<10:02:05, 11.57s/it] 19%|█▊        | 715/3837 [2:12:01<9:34:58, 11.05s/it]  19%|█▊        | 716/3837 [2:12:12<9:41:04, 11.17s/it] 19%|█▊        | 717/3837 [2:12:24<9:45:06, 11.25s/it] 19%|█▊        | 718/3837 [2:12:35<9:47:49, 11.31s/it] 19%|█▊        | 719/3837 [2:12:47<9:52:49, 11.41s/it] 19%|█▉        | 720/3837 [2:12:58<9:54:42, 11.45s/it]                                                      {'loss': 4.7825, 'grad_norm': 14.901525497436523, 'learning_rate': 9.363845880544723e-06, 'epoch': 0.19}
+ 19%|█▉        | 720/3837 [2:12:58<9:54:42, 11.45s/it] 19%|█▉        | 721/3837 [2:13:10<9:54:12, 11.44s/it] 19%|█▉        | 722/3837 [2:13:19<9:26:47, 10.92s/it] 19%|█▉        | 723/3837 [2:13:29<9:12:08, 10.64s/it] 19%|█▉        | 724/3837 [2:13:41<9:24:22, 10.88s/it] 19%|█▉        | 725/3837 [2:13:52<9:33:10, 11.05s/it] 19%|█▉        | 726/3837 [2:14:04<9:38:32, 11.16s/it] 19%|█▉        | 727/3837 [2:14:15<9:43:01, 11.25s/it] 19%|█▉        | 728/3837 [2:14:26<9:44:29, 11.28s/it] 19%|█▉        | 729/3837 [2:14:38<9:47:21, 11.34s/it] 19%|█▉        | 730/3837 [2:14:48<9:22:33, 10.86s/it]                                                      {'loss': 4.9372, 'grad_norm': 19.030302047729492, 'learning_rate': 9.343084366148064e-06, 'epoch': 0.19}
+ 19%|█▉        | 730/3837 [2:14:48<9:22:33, 10.86s/it] 19%|█▉        | 731/3837 [2:14:57<9:05:16, 10.53s/it] 19%|█▉        | 732/3837 [2:15:09<9:21:05, 10.84s/it] 19%|█▉        | 733/3837 [2:15:19<9:04:35, 10.53s/it] 19%|█▉        | 734/3837 [2:15:30<9:19:50, 10.83s/it] 19%|█▉        | 735/3837 [2:15:42<9:32:44, 11.08s/it] 19%|█▉        | 736/3837 [2:15:54<9:38:57, 11.20s/it] 19%|█▉        | 737/3837 [2:16:05<9:45:21, 11.33s/it] 19%|█▉        | 738/3837 [2:16:18<10:13:53, 11.89s/it] 19%|█▉        | 739/3837 [2:16:30<10:09:40, 11.81s/it] 19%|█▉        | 740/3837 [2:16:41<10:02:42, 11.68s/it]                                                       {'loss': 4.7285, 'grad_norm': 17.860355377197266, 'learning_rate': 9.322013269473575e-06, 'epoch': 0.19}
+ 19%|█▉        | 740/3837 [2:16:41<10:02:42, 11.68s/it] 19%|█▉        | 741/3837 [2:16:51<9:34:44, 11.14s/it]  19%|█▉        | 742/3837 [2:17:03<9:38:28, 11.21s/it] 19%|█▉        | 743/3837 [2:17:12<9:17:03, 10.80s/it] 19%|█▉        | 744/3837 [2:17:22<9:02:59, 10.53s/it] 19%|█▉        | 745/3837 [2:17:32<8:54:12, 10.37s/it] 19%|█▉        | 746/3837 [2:17:42<8:50:16, 10.29s/it] 19%|█▉        | 747/3837 [2:17:54<9:08:52, 10.66s/it] 19%|█▉        | 748/3837 [2:18:05<9:21:14, 10.90s/it] 20%|█▉        | 749/3837 [2:18:17<9:30:11, 11.08s/it] 20%|█▉        | 750/3837 [2:18:27<9:09:54, 10.69s/it]                                                      {'loss': 4.8045, 'grad_norm': 12.881828308105469, 'learning_rate': 9.300634092504077e-06, 'epoch': 0.2}
+ 20%|█▉        | 750/3837 [2:18:27<9:09:54, 10.69s/it] 20%|█▉        | 751/3837 [2:18:38<9:23:29, 10.96s/it] 20%|█▉        | 752/3837 [2:18:48<9:06:29, 10.63s/it] 20%|█▉        | 753/3837 [2:19:01<9:46:02, 11.40s/it] 20%|█▉        | 754/3837 [2:19:13<9:46:10, 11.41s/it] 20%|█▉        | 755/3837 [2:19:24<9:47:51, 11.44s/it] 20%|█▉        | 756/3837 [2:19:37<10:13:15, 11.94s/it] 20%|█▉        | 757/3837 [2:19:49<10:06:23, 11.81s/it] 20%|█▉        | 758/3837 [2:19:59<9:37:24, 11.25s/it]  20%|█▉        | 759/3837 [2:20:12<10:08:11, 11.86s/it] 20%|█▉        | 760/3837 [2:20:24<10:02:14, 11.74s/it]                                                       {'loss': 4.9374, 'grad_norm': 18.505136489868164, 'learning_rate': 9.27894835918287e-06, 'epoch': 0.2}
+ 20%|█▉        | 760/3837 [2:20:24<10:02:14, 11.74s/it] 20%|█▉        | 761/3837 [2:20:33<9:32:46, 11.17s/it]  20%|█▉        | 762/3837 [2:20:45<9:37:00, 11.26s/it] 20%|█▉        | 763/3837 [2:20:57<9:42:21, 11.37s/it] 20%|█▉        | 764/3837 [2:21:08<9:45:55, 11.44s/it] 20%|█▉        | 765/3837 [2:21:21<10:12:05, 11.95s/it] 20%|█▉        | 766/3837 [2:21:33<10:06:12, 11.84s/it] 20%|█▉        | 767/3837 [2:21:46<10:24:21, 12.20s/it] 20%|██        | 768/3837 [2:21:57<10:12:21, 11.97s/it] 20%|██        | 769/3837 [2:22:07<9:40:23, 11.35s/it]  20%|██        | 770/3837 [2:22:19<9:44:06, 11.43s/it]                                                      {'loss': 5.0411, 'grad_norm': 18.28144645690918, 'learning_rate': 9.25695761530509e-06, 'epoch': 0.2}
+ 20%|██        | 770/3837 [2:22:19<9:44:06, 11.43s/it] 20%|██        | 771/3837 [2:22:30<9:43:38, 11.42s/it] 20%|██        | 772/3837 [2:22:42<9:44:13, 11.44s/it] 20%|██        | 773/3837 [2:22:53<9:43:36, 11.43s/it] 20%|██        | 774/3837 [2:23:05<9:43:23, 11.43s/it] 20%|██        | 775/3837 [2:23:14<9:18:26, 10.94s/it] 20%|██        | 776/3837 [2:23:26<9:26:00, 11.09s/it] 20%|██        | 777/3837 [2:23:37<9:32:26, 11.22s/it] 20%|██        | 778/3837 [2:23:49<9:37:16, 11.32s/it] 20%|██        | 779/3837 [2:24:02<10:04:44, 11.87s/it] 20%|██        | 780/3837 [2:24:13<9:57:10, 11.72s/it]                                                       {'loss': 4.769, 'grad_norm': 17.294910430908203, 'learning_rate': 9.234663428407544e-06, 'epoch': 0.2}
+ 20%|██        | 780/3837 [2:24:13<9:57:10, 11.72s/it] 20%|██        | 781/3837 [2:24:25<9:53:07, 11.65s/it] 20%|██        | 782/3837 [2:24:36<9:52:11, 11.63s/it] 20%|██        | 783/3837 [2:24:48<9:49:39, 11.58s/it] 20%|██        | 784/3837 [2:25:00<9:49:11, 11.58s/it] 20%|██        | 785/3837 [2:25:09<9:22:26, 11.06s/it] 20%|██        | 786/3837 [2:25:19<9:04:34, 10.71s/it] 21%|██        | 787/3837 [2:25:31<9:16:45, 10.95s/it] 21%|██        | 788/3837 [2:25:41<9:03:20, 10.69s/it] 21%|██        | 789/3837 [2:25:52<9:16:35, 10.96s/it] 21%|██        | 790/3837 [2:26:02<8:57:13, 10.58s/it]                                                      {'loss': 4.8812, 'grad_norm': 14.820845603942871, 'learning_rate': 9.212067387656959e-06, 'epoch': 0.21}
+ 21%|██        | 790/3837 [2:26:02<8:57:13, 10.58s/it] 21%|██        | 791/3837 [2:26:14<9:10:55, 10.85s/it] 21%|██        | 792/3837 [2:26:23<8:54:26, 10.53s/it] 21%|██        | 793/3837 [2:26:35<9:11:17, 10.87s/it] 21%|██        | 794/3837 [2:26:45<8:54:34, 10.54s/it] 21%|██        | 795/3837 [2:26:55<8:45:54, 10.37s/it] 21%|██        | 796/3837 [2:27:07<9:06:38, 10.79s/it] 21%|██        | 797/3837 [2:27:18<9:17:44, 11.01s/it] 21%|██        | 798/3837 [2:27:28<9:01:56, 10.70s/it] 21%|██        | 799/3837 [2:27:38<8:50:18, 10.47s/it] 21%|██        | 800/3837 [2:27:50<9:05:41, 10.78s/it]                                                      {'loss': 4.6257, 'grad_norm': 20.82420539855957, 'learning_rate': 9.189171103736703e-06, 'epoch': 0.21}
+ 21%|██        | 800/3837 [2:27:50<9:05:41, 10.78s/it] 21%|██        | 801/3837 [2:28:01<9:14:51, 10.97s/it] 21%|██        | 802/3837 [2:28:12<9:21:40, 11.10s/it] 21%|██        | 803/3837 [2:28:22<9:01:25, 10.71s/it] 21%|██        | 804/3837 [2:28:34<9:12:59, 10.94s/it] 21%|██        | 805/3837 [2:28:45<9:22:40, 11.13s/it] 21%|██        | 806/3837 [2:28:57<9:28:24, 11.25s/it] 21%|██        | 807/3837 [2:29:08<9:31:53, 11.32s/it] 21%|██        | 808/3837 [2:29:18<9:13:50, 10.97s/it] 21%|██        | 809/3837 [2:29:31<9:45:57, 11.61s/it] 21%|██        | 810/3837 [2:29:43<9:44:42, 11.59s/it]                                                      {'loss': 4.9519, 'grad_norm': 17.070852279663086, 'learning_rate': 9.165976208731979e-06, 'epoch': 0.21}
+ 21%|██        | 810/3837 [2:29:43<9:44:42, 11.59s/it] 21%|██        | 811/3837 [2:29:55<9:43:05, 11.56s/it] 21%|██        | 812/3837 [2:30:06<9:42:08, 11.55s/it] 21%|██        | 813/3837 [2:30:16<9:17:41, 11.07s/it] 21%|██        | 814/3837 [2:30:26<9:07:04, 10.86s/it] 21%|██        | 815/3837 [2:30:36<8:51:05, 10.54s/it] 21%|██▏       | 816/3837 [2:30:48<9:04:11, 10.81s/it] 21%|██▏       | 817/3837 [2:30:59<9:12:28, 10.98s/it] 21%|██▏       | 818/3837 [2:31:10<9:19:20, 11.12s/it] 21%|██▏       | 819/3837 [2:31:20<8:59:25, 10.72s/it] 21%|██▏       | 820/3837 [2:31:32<9:12:03, 10.98s/it]                                                      {'loss': 4.9592, 'grad_norm': 22.17974281311035, 'learning_rate': 9.142484356013486e-06, 'epoch': 0.21}
+ 21%|██▏       | 820/3837 [2:31:32<9:12:03, 10.98s/it] 21%|██▏       | 821/3837 [2:31:43<9:19:10, 11.12s/it] 21%|██▏       | 822/3837 [2:31:53<8:59:26, 10.74s/it] 21%|██▏       | 823/3837 [2:32:05<9:10:06, 10.95s/it] 21%|██▏       | 824/3837 [2:32:16<9:17:05, 11.09s/it] 22%|██▏       | 825/3837 [2:32:29<9:47:22, 11.70s/it] 22%|██▏       | 826/3837 [2:32:39<9:20:41, 11.17s/it] 22%|██▏       | 827/3837 [2:32:51<9:25:42, 11.28s/it] 22%|██▏       | 828/3837 [2:33:02<9:28:24, 11.33s/it] 22%|██▏       | 829/3837 [2:33:13<9:29:36, 11.36s/it] 22%|██▏       | 830/3837 [2:33:25<9:30:24, 11.38s/it]                                                      {'loss': 4.4487, 'grad_norm': 18.09177017211914, 'learning_rate': 9.118697220119563e-06, 'epoch': 0.22}
+ 22%|██▏       | 830/3837 [2:33:25<9:30:24, 11.38s/it] 22%|██▏       | 831/3837 [2:33:36<9:31:52, 11.41s/it] 22%|██▏       | 832/3837 [2:33:46<9:08:25, 10.95s/it] 22%|██▏       | 833/3837 [2:33:58<9:15:49, 11.10s/it] 22%|██▏       | 834/3837 [2:34:11<9:46:23, 11.72s/it] 22%|██▏       | 835/3837 [2:34:24<10:08:05, 12.15s/it] 22%|██▏       | 836/3837 [2:34:35<9:57:22, 11.94s/it]  22%|██▏       | 837/3837 [2:34:47<9:51:15, 11.83s/it] 22%|██▏       | 838/3837 [2:35:00<10:04:43, 12.10s/it] 22%|██▏       | 839/3837 [2:35:11<9:55:13, 11.91s/it]  22%|██▏       | 840/3837 [2:35:23<9:50:56, 11.83s/it]                                                      {'loss': 4.8125, 'grad_norm': 15.924223899841309, 'learning_rate': 9.09461649663682e-06, 'epoch': 0.22}
+ 22%|██▏       | 840/3837 [2:35:23<9:50:56, 11.83s/it] 22%|██▏       | 841/3837 [2:35:34<9:45:12, 11.72s/it] 22%|██▏       | 842/3837 [2:35:46<9:42:12, 11.66s/it] 22%|██▏       | 843/3837 [2:35:56<9:14:18, 11.11s/it] 22%|██▏       | 844/3837 [2:36:05<8:54:06, 10.71s/it] 22%|██▏       | 845/3837 [2:36:15<8:42:26, 10.48s/it] 22%|██▏       | 846/3837 [2:36:27<8:56:37, 10.76s/it] 22%|██▏       | 847/3837 [2:36:39<9:17:29, 11.19s/it] 22%|██▏       | 848/3837 [2:36:50<9:20:32, 11.25s/it] 22%|██▏       | 849/3837 [2:37:02<9:25:22, 11.35s/it] 22%|██▏       | 850/3837 [2:37:13<9:27:54, 11.41s/it]                                                      {'loss': 4.7626, 'grad_norm': 16.78546905517578, 'learning_rate': 9.070243902079285e-06, 'epoch': 0.22}
+ 22%|██▏       | 850/3837 [2:37:13<9:27:54, 11.41s/it] 22%|██▏       | 851/3837 [2:37:23<9:04:39, 10.94s/it] 22%|██▏       | 852/3837 [2:37:35<9:14:34, 11.15s/it] 22%|██▏       | 853/3837 [2:37:48<9:43:15, 11.73s/it] 22%|██▏       | 854/3837 [2:37:58<9:19:53, 11.26s/it] 22%|██▏       | 855/3837 [2:38:10<9:23:34, 11.34s/it] 22%|██▏       | 856/3837 [2:38:21<9:25:15, 11.38s/it] 22%|██▏       | 857/3837 [2:38:33<9:28:07, 11.44s/it] 22%|██▏       | 858/3837 [2:38:44<9:28:49, 11.46s/it] 22%|██▏       | 859/3837 [2:38:56<9:29:28, 11.47s/it] 22%|██▏       | 860/3837 [2:39:07<9:29:53, 11.49s/it]                                                      {'loss': 4.7893, 'grad_norm': 15.40041732788086, 'learning_rate': 9.045581173766038e-06, 'epoch': 0.22}
+ 22%|██▏       | 860/3837 [2:39:07<9:29:53, 11.49s/it] 22%|��█▏       | 861/3837 [2:39:17<9:06:43, 11.02s/it] 22%|██▏       | 862/3837 [2:39:27<8:49:03, 10.67s/it] 22%|██▏       | 863/3837 [2:39:39<8:59:56, 10.89s/it] 23%|██▎       | 864/3837 [2:39:48<8:45:03, 10.60s/it] 23%|██▎       | 865/3837 [2:40:00<8:57:21, 10.85s/it] 23%|██▎       | 866/3837 [2:40:10<8:42:12, 10.55s/it] 23%|██▎       | 867/3837 [2:40:21<8:58:34, 10.88s/it] 23%|██▎       | 868/3837 [2:40:33<9:08:11, 11.08s/it] 23%|██▎       | 869/3837 [2:40:43<8:51:48, 10.75s/it] 23%|██▎       | 870/3837 [2:40:54<9:03:00, 10.98s/it]                                                      {'loss': 4.9998, 'grad_norm': 19.0047664642334, 'learning_rate': 9.020630069697378e-06, 'epoch': 0.23}
+ 23%|██▎       | 870/3837 [2:40:54<9:03:00, 10.98s/it] 23%|██▎       | 871/3837 [2:41:06<9:09:59, 11.13s/it] 23%|██▎       | 872/3837 [2:41:17<9:16:32, 11.26s/it] 23%|██▎       | 873/3837 [2:41:27<8:54:54, 10.83s/it] 23%|██▎       | 874/3837 [2:41:39<9:02:54, 10.99s/it] 23%|██▎       | 875/3837 [2:41:50<9:11:08, 11.16s/it] 23%|██▎       | 876/3837 [2:42:00<8:50:15, 10.75s/it] 23%|██▎       | 877/3837 [2:42:11<8:59:39, 10.94s/it] 23%|██▎       | 878/3837 [2:42:21<8:42:00, 10.58s/it] 23%|██▎       | 879/3837 [2:42:33<8:54:39, 10.85s/it] 23%|██▎       | 880/3837 [2:42:44<9:05:42, 11.07s/it]                                                      {'loss': 4.5877, 'grad_norm': 17.001070022583008, 'learning_rate': 8.995392368429503e-06, 'epoch': 0.23}
+ 23%|██▎       | 880/3837 [2:42:44<9:05:42, 11.07s/it] 23%|██▎       | 881/3837 [2:42:56<9:11:20, 11.19s/it] 23%|██▎       | 882/3837 [2:43:05<8:50:18, 10.77s/it] 23%|██▎       | 883/3837 [2:43:15<8:37:58, 10.52s/it] 23%|██▎       | 884/3837 [2:43:25<8:27:50, 10.32s/it] 23%|██▎       | 885/3837 [2:43:35<8:21:29, 10.19s/it] 23%|██▎       | 886/3837 [2:43:45<8:14:24, 10.05s/it] 23%|██▎       | 887/3837 [2:43:56<8:34:01, 10.45s/it] 23%|██▎       | 888/3837 [2:44:08<8:48:41, 10.76s/it] 23%|██▎       | 889/3837 [2:44:18<8:36:11, 10.51s/it] 23%|██▎       | 890/3837 [2:44:29<8:49:54, 10.79s/it]                                                      {'loss': 4.5884, 'grad_norm': 12.525654792785645, 'learning_rate': 8.969869868947743e-06, 'epoch': 0.23}
+ 23%|██▎       | 890/3837 [2:44:29<8:49:54, 10.79s/it] 23%|██▎       | 891/3837 [2:44:41<9:01:51, 11.04s/it] 23%|██▎       | 892/3837 [2:44:52<9:08:00, 11.16s/it] 23%|██▎       | 893/3837 [2:45:02<8:47:38, 10.75s/it] 23%|██▎       | 894/3837 [2:45:13<8:57:28, 10.96s/it] 23%|██▎       | 895/3837 [2:45:25<9:04:14, 11.10s/it] 23%|██▎       | 896/3837 [2:45:36<9:09:59, 11.22s/it] 23%|██▎       | 897/3837 [2:45:48<9:16:13, 11.35s/it] 23%|██▎       | 898/3837 [2:45:59<9:18:17, 11.40s/it] 23%|██▎       | 899/3837 [2:46:09<8:54:36, 10.92s/it] 23%|██▎       | 900/3837 [2:46:19<8:37:16, 10.57s/it]                                                      {'loss': 4.74, 'grad_norm': 11.931947708129883, 'learning_rate': 8.944064390538314e-06, 'epoch': 0.23}
+ 23%|██▎       | 900/3837 [2:46:19<8:37:16, 10.57s/it] 23%|██▎       | 901/3837 [2:46:31<8:52:29, 10.88s/it] 24%|██▎       | 902/3837 [2:46:42<9:00:43, 11.05s/it] 24%|██▎       | 903/3837 [2:46:54<9:06:41, 11.18s/it] 24%|██▎       | 904/3837 [2:47:05<9:11:47, 11.29s/it] 24%|██▎       | 905/3837 [2:47:17<9:13:40, 11.33s/it] 24%|██▎       | 906/3837 [2:47:30<9:40:29, 11.88s/it] 24%|██▎       | 907/3837 [2:47:41<9:33:48, 11.75s/it] 24%|██▎       | 908/3837 [2:47:51<9:05:33, 11.18s/it] 24%|██▎       | 909/3837 [2:48:02<9:09:52, 11.27s/it] 24%|██▎       | 910/3837 [2:48:12<8:50:35, 10.88s/it]                                                      {'loss': 4.6114, 'grad_norm': 13.704660415649414, 'learning_rate': 8.917977772658639e-06, 'epoch': 0.24}
+ 24%|██▎       | 910/3837 [2:48:12<8:50:35, 10.88s/it] 24%|██▎       | 911/3837 [2:48:24<8:57:40, 11.03s/it] 24%|██▍       | 912/3837 [2:48:34<8:41:57, 10.71s/it] 24%|██▍       | 913/3837 [2:48:45<8:54:58, 10.98s/it] 24%|██▍       | 914/3837 [2:48:57<9:02:00, 11.13s/it] 24%|██▍       | 915/3837 [2:49:10<9:31:50, 11.74s/it] 24%|██▍       | 916/3837 [2:49:20<9:01:52, 11.13s/it] 24%|██▍       | 917/3837 [2:49:31<9:05:52, 11.22s/it] 24%|██▍       | 918/3837 [2:49:43<9:08:18, 11.27s/it] 24%|██▍       | 919/3837 [2:49:52<8:47:13, 10.84s/it] 24%|██▍       | 920/3837 [2:50:02<8:31:17, 10.52s/it]                                                      {'loss': 4.5371, 'grad_norm': 14.836153030395508, 'learning_rate': 8.891611874806236e-06, 'epoch': 0.24}
+ 24%|██▍       | 920/3837 [2:50:02<8:31:17, 10.52s/it] 24%|██▍       | 921/3837 [2:50:14<8:44:37, 10.79s/it] 24%|██▍       | 922/3837 [2:50:25<8:53:26, 10.98s/it] 24%|██▍       | 923/3837 [2:50:35<8:35:58, 10.62s/it] 24%|██▍       | 924/3837 [2:50:46<8:50:08, 10.92s/it] 24%|██▍       | 925/3837 [2:50:58<8:56:54, 11.06s/it] 24%|██▍       | 926/3837 [2:51:09<9:05:43, 11.25s/it] 24%|██▍       | 927/3837 [2:51:19<8:46:51, 10.86s/it] 24%|██▍       | 928/3837 [2:51:31<8:55:21, 11.04s/it] 24%|██▍       | 929/3837 [2:51:41<8:36:53, 10.66s/it] 24%|██▍       | 930/3837 [2:51:54<9:13:59, 11.43s/it]                                                      {'loss': 4.7917, 'grad_norm': 17.466421127319336, 'learning_rate': 8.864968576386157e-06, 'epoch': 0.24}
+ 24%|██▍       | 930/3837 [2:51:54<9:13:59, 11.43s/it] 24%|██▍       | 931/3837 [2:52:05<9:13:52, 11.44s/it] 24%|██▍       | 932/3837 [2:52:17<9:13:56, 11.44s/it] 24%|██▍       | 933/3837 [2:52:27<8:51:38, 10.98s/it] 24%|██▍       | 934/3837 [2:52:38<8:59:46, 11.16s/it] 24%|██▍       | 935/3837 [2:52:50<9:04:56, 11.27s/it] 24%|██▍       | 936/3837 [2:53:01<9:07:26, 11.32s/it] 24%|██▍       | 937/3837 [2:53:11<8:47:13, 10.91s/it] 24%|██▍       | 938/3837 [2:53:21<8:32:02, 10.60s/it] 24%|██▍       | 939/3837 [2:53:32<8:43:44, 10.84s/it] 24%|██▍       | 940/3837 [2:53:44<8:52:04, 11.02s/it]                                                      {'loss': 4.5563, 'grad_norm': 15.29416561126709, 'learning_rate': 8.838049776577036e-06, 'epoch': 0.24}
+ 24%|██▍       | 940/3837 [2:53:44<8:52:04, 11.02s/it] 25%|██▍       | 941/3837 [2:53:56<9:00:28, 11.20s/it] 25%|██▍       | 942/3837 [2:54:06<8:44:02, 10.86s/it] 25%|██▍       | 943/3837 [2:54:17<8:51:52, 11.03s/it] 25%|██▍       | 944/3837 [2:54:29<8:58:08, 11.16s/it] 25%|██▍       | 945/3837 [2:54:40<9:02:28, 11.25s/it] 25%|██▍       | 946/3837 [2:54:50<8:44:29, 10.89s/it] 25%|██▍       | 947/3837 [2:55:02<8:53:38, 11.08s/it] 25%|██▍       | 948/3837 [2:55:11<8:36:27, 10.73s/it] 25%|██▍       | 949/3837 [2:55:23<8:45:37, 10.92s/it] 25%|██▍       | 950/3837 [2:55:33<8:28:58, 10.58s/it]                                                      {'loss': 4.6889, 'grad_norm': 14.739514350891113, 'learning_rate': 8.810857394195693e-06, 'epoch': 0.25}
+ 25%|██▍       | 950/3837 [2:55:33<8:28:58, 10.58s/it] 25%|██▍       | 951/3837 [2:55:44<8:40:59, 10.83s/it] 25%|██▍       | 952/3837 [2:55:55<8:49:59, 11.02s/it] 25%|██▍       | 953/3837 [2:56:05<8:33:45, 10.69s/it] 25%|██▍       | 954/3837 [2:56:17<8:44:15, 10.91s/it] 25%|██▍       | 955/3837 [2:56:28<8:52:12, 11.08s/it] 25%|██▍       | 956/3837 [2:56:40<8:56:10, 11.17s/it] 25%|██▍       | 957/3837 [2:56:49<8:36:32, 10.76s/it] 25%|██▍       | 958/3837 [2:57:01<8:47:01, 10.98s/it] 25%|██▍       | 959/3837 [2:57:14<9:17:42, 11.63s/it] 25%|██▌       | 960/3837 [2:57:24<8:51:31, 11.08s/it]                                                      {'loss': 4.7563, 'grad_norm': 19.16230010986328, 'learning_rate': 8.783393367560382e-06, 'epoch': 0.25}
+ 25%|██▌       | 960/3837 [2:57:24<8:51:31, 11.08s/it] 25%|██▌       | 961/3837 [2:57:35<8:56:17, 11.19s/it] 25%|██▌       | 962/3837 [2:57:45<8:37:22, 10.80s/it] 25%|██▌       | 963/3837 [2:57:57<8:48:15, 11.03s/it] 25%|██▌       | 964/3837 [2:58:08<8:46:52, 11.00s/it] 25%|██▌       | 965/3837 [2:58:19<8:52:11, 11.12s/it] 25%|██▌       | 966/3837 [2:58:31<8:57:55, 11.24s/it] 25%|██▌       | 967/3837 [2:58:42<9:01:16, 11.32s/it] 25%|██▌       | 968/3837 [2:58:54<9:04:37, 11.39s/it] 25%|██▌       | 969/3837 [2:59:07<9:30:27, 11.93s/it] 25%|██▌       | 970/3837 [2:59:17<9:04:30, 11.40s/it]                                                      {'loss': 4.6225, 'grad_norm': 15.767837524414062, 'learning_rate': 8.755659654352599e-06, 'epoch': 0.25}
+ 25%|██▌       | 970/3837 [2:59:17<9:04:30, 11.40s/it] 25%|██▌       | 971/3837 [2:59:27<8:42:16, 10.93s/it] 25%|██▌       | 972/3837 [2:59:38<8:50:36, 11.11s/it] 25%|██▌       | 973/3837 [2:59:52<9:19:00, 11.71s/it] 25%|██▌       | 974/3837 [3:00:01<8:52:48, 11.17s/it] 25%|██▌       | 975/3837 [3:00:13<8:58:30, 11.29s/it] 25%|██▌       | 976/3837 [3:00:23<8:38:13, 10.87s/it] 25%|██▌       | 977/3837 [3:00:34<8:46:45, 11.05s/it] 25%|██▌       | 978/3837 [3:00:46<8:54:13, 11.21s/it] 26%|██▌       | 979/3837 [3:00:56<8:38:53, 10.89s/it] 26%|██▌       | 980/3837 [3:01:08<8:49:15, 11.12s/it]                                                      {'loss': 4.9221, 'grad_norm': 18.233675003051758, 'learning_rate': 8.72765823147756e-06, 'epoch': 0.26}
+ 26%|██▌       | 980/3837 [3:01:08<8:49:15, 11.12s/it] 26%|██▌       | 981/3837 [3:01:19<8:53:39, 11.21s/it] 26%|██▌       | 982/3837 [3:01:29<8:34:39, 10.82s/it] 26%|██▌       | 983/3837 [3:01:38<8:10:52, 10.32s/it] 26%|██▌       | 984/3837 [3:01:50<8:27:38, 10.68s/it] 26%|██▌       | 985/3837 [3:02:00<8:14:44, 10.41s/it] 26%|██▌       | 986/3837 [3:02:10<8:08:15, 10.28s/it] 26%|██▌       | 987/3837 [3:02:21<8:25:43, 10.65s/it] 26%|██▌       | 988/3837 [3:02:33<8:37:29, 10.90s/it] 26%|██▌       | 989/3837 [3:02:44<8:46:35, 11.09s/it] 26%|██▌       | 990/3837 [3:02:56<8:52:24, 11.22s/it]                                                      {'loss': 4.6117, 'grad_norm': 17.42734146118164, 'learning_rate': 8.699391094923258e-06, 'epoch': 0.26}
+ 26%|██▌       | 990/3837 [3:02:56<8:52:24, 11.22s/it] 26%|██▌       | 991/3837 [3:03:07<8:55:43, 11.29s/it] 26%|██▌       | 992/3837 [3:03:17<8:34:28, 10.85s/it] 26%|██▌       | 993/3837 [3:03:27<8:19:52, 10.55s/it] 26%|██▌       | 994/3837 [3:03:38<8:33:26, 10.84s/it] 26%|██▌       | 995/3837 [3:03:48<8:19:05, 10.54s/it] 26%|██▌       | 996/3837 [3:03:58<8:08:45, 10.32s/it] 26%|██▌       | 997/3837 [3:04:08<8:03:25, 10.21s/it] 26%|██▌       | 998/3837 [3:04:18<7:57:59, 10.10s/it] 26%|██▌       | 999/3837 [3:04:29<8:15:29, 10.48s/it] 26%|██▌       | 1000/3837 [3:04:41<8:30:51, 10.80s/it]                                                       {'loss': 4.605, 'grad_norm': 16.672109603881836, 'learning_rate': 8.670860259618208e-06, 'epoch': 0.26}
+ 26%|██▌       | 1000/3837 [3:04:41<8:30:51, 10.80s/it]/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+ 26%|██▌       | 1001/3837 [3:06:04<25:45:23, 32.70s/it] 26%|██▌       | 1002/3837 [3:06:18<21:07:47, 26.83s/it] 26%|██▌       | 1003/3837 [3:06:29<17:30:34, 22.24s/it] 26%|██▌       | 1004/3837 [3:06:41<14:58:12, 19.02s/it] 26%|██▌       | 1005/3837 [3:06:52<13:10:42, 16.75s/it] 26%|██▌       | 1006/3837 [3:07:03<11:54:58, 15.15s/it] 26%|██▌       | 1007/3837 [3:07:15<11:01:43, 14.03s/it] 26%|██▋       | 1008/3837 [3:07:26<10:26:44, 13.29s/it] 26%|██▋       | 1009/3837 [3:07:38<10:00:37, 12.74s/it] 26%|██▋       | 1010/3837 [3:07:48<9:18:33, 11.85s/it]                                                        {'loss': 4.6395, 'grad_norm': 11.820645332336426, 'learning_rate': 8.642067759287811e-06, 'epoch': 0.26}
+ 26%|██▋       | 1010/3837 [3:07:48<9:18:33, 11.85s/it] 26%|██▋       | 1011/3837 [3:07:57<8:48:59, 11.23s/it] 26%|██▋       | 1012/3837 [3:08:09<8:52:48, 11.32s/it] 26%|██▋       | 1013/3837 [3:08:20<8:55:59, 11.39s/it] 26%|██▋       | 1014/3837 [3:08:32<8:57:36, 11.43s/it] 26%|██▋       | 1015/3837 [3:08:43<8:57:58, 11.44s/it] 26%|██▋       | 1016/3837 [3:08:55<8:57:44, 11.44s/it] 27%|██▋       | 1017/3837 [3:09:06<8:58:10, 11.45s/it] 27%|██▋       | 1018/3837 [3:09:18<8:59:14, 11.48s/it] 27%|██▋       | 1019/3837 [3:09:29<8:58:47, 11.47s/it] 27%|██▋       | 1020/3837 [3:09:39<8:37:03, 11.01s/it]                                                       {'loss': 4.613, 'grad_norm': 21.83611297607422, 'learning_rate': 8.61301564630938e-06, 'epoch': 0.27}
+ 27%|██▋       | 1020/3837 [3:09:39<8:37:03, 11.01s/it] 27%|██▋       | 1021/3837 [3:09:51<8:43:07, 11.15s/it] 27%|██▋       | 1022/3837 [3:10:02<8:46:23, 11.22s/it] 27%|██▋       | 1023/3837 [3:10:12<8:25:31, 10.78s/it] 27%|██▋       | 1024/3837 [3:10:24<8:37:45, 11.04s/it] 27%|██▋       | 1025/3837 [3:10:35<8:42:00, 11.14s/it] 27%|██▋       | 1026/3837 [3:10:45<8:22:44, 10.73s/it] 27%|██▋       | 1027/3837 [3:10:55<8:11:52, 10.50s/it] 27%|██▋       | 1028/3837 [3:11:04<8:01:08, 10.28s/it] 27%|██▋       | 1029/3837 [3:11:16<8:16:46, 10.61s/it] 27%|██▋       | 1030/3837 [3:11:27<8:29:32, 10.89s/it]                                                       {'loss': 4.5266, 'grad_norm': 17.045490264892578, 'learning_rate': 8.583705991565853e-06, 'epoch': 0.27}
+ 27%|██▋       | 1030/3837 [3:11:27<8:29:32, 10.89s/it] 27%|██▋       | 1031/3837 [3:11:39<8:38:40, 11.09s/it] 27%|██▋       | 1032/3837 [3:11:54<9:31:33, 12.23s/it] 27%|██▋       | 1033/3837 [3:12:05<9:20:24, 11.99s/it] 27%|██▋       | 1034/3837 [3:12:15<8:50:02, 11.35s/it] 27%|██▋       | 1035/3837 [3:12:28<9:14:07, 11.87s/it] 27%|██▋       | 1036/3837 [3:12:38<8:47:02, 11.29s/it] 27%|██▋       | 1037/3837 [3:12:50<8:50:14, 11.36s/it] 27%|██▋       | 1038/3837 [3:13:00<8:30:07, 10.94s/it] 27%|██▋       | 1039/3837 [3:13:11<8:38:01, 11.11s/it] 27%|██▋       | 1040/3837 [3:13:21<8:20:40, 10.74s/it]                                                       {'loss': 4.6898, 'grad_norm': 11.697915077209473, 'learning_rate': 8.554140884298175e-06, 'epoch': 0.27}
+ 27%|██▋       | 1040/3837 [3:13:21<8:20:40, 10.74s/it] 27%|██▋       | 1041/3837 [3:13:32<8:31:08, 10.97s/it] 27%|██▋       | 1042/3837 [3:13:44<8:38:55, 11.14s/it] 27%|██▋       | 1043/3837 [3:13:56<8:45:34, 11.29s/it] 27%|██▋       | 1044/3837 [3:14:07<8:48:43, 11.36s/it] 27%|██▋       | 1045/3837 [3:14:17<8:27:13, 10.90s/it] 27%|██▋       | 1046/3837 [3:14:27<8:10:42, 10.55s/it] 27%|██▋       | 1047/3837 [3:14:37<8:01:58, 10.37s/it] 27%|██▋       | 1048/3837 [3:14:48<8:16:19, 10.68s/it] 27%|██▋       | 1049/3837 [3:15:00<8:26:33, 10.90s/it] 27%|██▋       | 1050/3837 [3:15:11<8:35:13, 11.09s/it]                                                       {'loss': 4.5086, 'grad_norm': 15.796126365661621, 'learning_rate': 8.524322431956368e-06, 'epoch': 0.27}
+ 27%|██▋       | 1050/3837 [3:15:11<8:35:13, 11.09s/it] 27%|██▋       | 1051/3837 [3:15:22<8:39:01, 11.18s/it] 27%|██▋       | 1052/3837 [3:15:31<7:55:45, 10.25s/it] 27%|██▋       | 1053/3837 [3:15:40<7:49:07, 10.11s/it] 27%|██▋       | 1054/3837 [3:15:50<7:45:39, 10.04s/it] 27%|██▋       | 1055/3837 [3:16:02<8:05:24, 10.47s/it] 28%|██▊       | 1056/3837 [3:16:13<8:18:44, 10.76s/it] 28%|██▊       | 1057/3837 [3:16:25<8:29:20, 10.99s/it] 28%|██▊       | 1058/3837 [3:16:36<8:36:36, 11.15s/it] 28%|██▊       | 1059/3837 [3:16:49<9:04:10, 11.75s/it] 28%|██▊       | 1060/3837 [3:16:59<8:35:34, 11.14s/it]                                                       {'loss': 4.6036, 'grad_norm': 13.956991195678711, 'learning_rate': 8.494252760049318e-06, 'epoch': 0.28}
+ 28%|██▊       | 1060/3837 [3:16:59<8:35:34, 11.14s/it] 28%|██▊       | 1061/3837 [3:17:09<8:17:09, 10.75s/it] 28%|██▊       | 1062/3837 [3:17:20<8:28:27, 10.99s/it] 28%|██▊       | 1063/3837 [3:17:30<8:12:01, 10.64s/it] 28%|██▊       | 1064/3837 [3:17:42<8:23:34, 10.90s/it] 28%|██▊       | 1065/3837 [3:17:53<8:30:34, 11.05s/it] 28%|██▊       | 1066/3837 [3:18:05<8:35:32, 11.16s/it] 28%|██▊       | 1067/3837 [3:18:14<8:14:25, 10.71s/it] 28%|██▊       | 1068/3837 [3:18:24<8:04:09, 10.49s/it] 28%|██▊       | 1069/3837 [3:18:36<8:16:34, 10.76s/it] 28%|██▊       | 1070/3837 [3:18:45<8:02:48, 10.47s/it]                                                       {'loss': 4.5016, 'grad_norm': 16.567855834960938, 'learning_rate': 8.463934011993253e-06, 'epoch': 0.28}
+ 28%|██▊       | 1070/3837 [3:18:45<8:02:48, 10.47s/it] 28%|██▊       | 1071/3837 [3:18:55<7:54:38, 10.30s/it] 28%|██▊       | 1072/3837 [3:19:07<8:11:13, 10.66s/it] 28%|██▊       | 1073/3837 [3:19:18<8:21:43, 10.89s/it] 28%|██▊       | 1074/3837 [3:19:28<8:08:03, 10.60s/it] 28%|██▊       | 1075/3837 [3:19:40<8:21:43, 10.90s/it] 28%|██▊       | 1076/3837 [3:19:51<8:28:29, 11.05s/it] 28%|██▊       | 1077/3837 [3:20:03<8:32:50, 11.15s/it] 28%|██▊       | 1078/3837 [3:20:14<8:36:46, 11.24s/it] 28%|██▊       | 1079/3837 [3:20:24<8:17:25, 10.82s/it] 28%|██▊       | 1080/3837 [3:20:34<8:04:52, 10.55s/it]                                                       {'loss': 4.4031, 'grad_norm': 16.10079574584961, 'learning_rate': 8.433368348958965e-06, 'epoch': 0.28}
+ 28%|██▊       | 1080/3837 [3:20:34<8:04:52, 10.55s/it] 28%|██▊       | 1081/3837 [3:20:45<8:17:06, 10.82s/it] 28%|██▊       | 1082/3837 [3:20:55<8:04:49, 10.56s/it] 28%|██▊       | 1083/3837 [3:21:05<7:55:50, 10.37s/it] 28%|██▊       | 1084/3837 [3:21:17<8:11:04, 10.70s/it] 28%|██▊       | 1085/3837 [3:21:26<8:00:52, 10.48s/it] 28%|██▊       | 1086/3837 [3:21:38<8:16:03, 10.82s/it] 28%|██▊       | 1087/3837 [3:21:48<8:02:44, 10.53s/it] 28%|██▊       | 1088/3837 [3:21:58<7:53:48, 10.34s/it] 28%|██▊       | 1089/3837 [3:22:09<8:09:28, 10.69s/it] 28%|██▊       | 1090/3837 [3:22:21<8:20:00, 10.92s/it]                                                       {'loss': 4.3646, 'grad_norm': 16.99315071105957, 'learning_rate': 8.402557949717761e-06, 'epoch': 0.28}
+ 28%|██▊       | 1090/3837 [3:22:21<8:20:00, 10.92s/it] 28%|██▊       | 1091/3837 [3:22:31<8:05:28, 10.61s/it] 28%|██▊       | 1092/3837 [3:22:42<8:15:47, 10.84s/it] 28%|██▊       | 1093/3837 [3:22:54<8:24:39, 11.03s/it] 29%|██▊       | 1094/3837 [3:23:03<8:06:07, 10.63s/it] 29%|██▊       | 1095/3837 [3:23:15<8:17:33, 10.89s/it] 29%|██▊       | 1096/3837 [3:23:26<8:25:24, 11.06s/it] 29%|██▊       | 1097/3837 [3:23:38<8:31:05, 11.19s/it] 29%|██▊       | 1098/3837 [3:23:49<8:34:00, 11.26s/it] 29%|██▊       | 1099/3837 [3:23:59<8:14:43, 10.84s/it] 29%|██▊       | 1100/3837 [3:24:09<8:02:09, 10.57s/it]                                                       {'loss': 4.6657, 'grad_norm': 15.070565223693848, 'learning_rate': 8.371505010486147e-06, 'epoch': 0.29}
+ 29%|██▊       | 1100/3837 [3:24:09<8:02:09, 10.57s/it] 29%|██▊       | 1101/3837 [3:24:20<8:13:30, 10.82s/it] 29%|██▊       | 1102/3837 [3:24:32<8:21:03, 10.99s/it] 29%|██▊       | 1103/3837 [3:24:43<8:27:24, 11.14s/it] 29%|██▉       | 1104/3837 [3:24:53<8:09:33, 10.75s/it] 29%|██▉       | 1105/3837 [3:25:03<7:58:06, 10.50s/it] 29%|██▉       | 1106/3837 [3:25:13<7:57:48, 10.50s/it] 29%|██▉       | 1107/3837 [3:25:23<7:50:55, 10.35s/it] 29%|██▉       | 1108/3837 [3:25:35<8:06:22, 10.69s/it] 29%|██▉       | 1109/3837 [3:25:46<8:16:17, 10.92s/it] 29%|██▉       | 1110/3837 [3:25:58<8:23:52, 11.09s/it]                                                       {'loss': 4.4376, 'grad_norm': 19.31537437438965, 'learning_rate': 8.340211744769283e-06, 'epoch': 0.29}
+ 29%|██▉       | 1110/3837 [3:25:58<8:23:52, 11.09s/it] 29%|██▉       | 1111/3837 [3:26:11<8:50:47, 11.68s/it] 29%|██▉       | 1112/3837 [3:26:23<8:49:18, 11.65s/it] 29%|██▉       | 1113/3837 [3:26:34<8:46:44, 11.60s/it] 29%|██▉       | 1114/3837 [3:26:46<8:45:43, 11.58s/it] 29%|██▉       | 1115/3837 [3:26:57<8:43:39, 11.54s/it] 29%|██▉       | 1116/3837 [3:27:09<8:43:05, 11.53s/it] 29%|██▉       | 1117/3837 [3:27:18<8:21:45, 11.07s/it] 29%|██▉       | 1118/3837 [3:27:29<8:07:31, 10.76s/it] 29%|██▉       | 1119/3837 [3:27:38<7:53:31, 10.45s/it] 29%|██▉       | 1120/3837 [3:27:48<7:45:53, 10.29s/it]                                                       {'loss': 4.4304, 'grad_norm': 12.955595970153809, 'learning_rate': 8.308680383203202e-06, 'epoch': 0.29}
+ 29%|██▉       | 1120/3837 [3:27:48<7:45:53, 10.29s/it] 29%|██▉       | 1121/3837 [3:28:00<8:01:24, 10.63s/it] 29%|██▉       | 1122/3837 [3:28:11<8:12:58, 10.89s/it] 29%|██▉       | 1123/3837 [3:28:23<8:21:38, 11.09s/it] 29%|██▉       | 1124/3837 [3:28:34<8:28:01, 11.24s/it] 29%|██▉       | 1125/3837 [3:28:46<8:32:40, 11.34s/it] 29%|██▉       | 1126/3837 [3:28:57<8:34:27, 11.39s/it] 29%|██▉       | 1127/3837 [3:29:09<8:35:05, 11.40s/it] 29%|██▉       | 1128/3837 [3:29:19<8:12:34, 10.91s/it] 29%|██▉       | 1129/3837 [3:29:30<8:20:04, 11.08s/it] 29%|██▉       | 1130/3837 [3:29:40<8:03:59, 10.73s/it]                                                       {'loss': 4.4724, 'grad_norm': 13.809191703796387, 'learning_rate': 8.276913173395809e-06, 'epoch': 0.29}
+ 29%|██▉       | 1130/3837 [3:29:40<8:03:59, 10.73s/it] 29%|██▉       | 1131/3837 [3:29:51<8:14:22, 10.96s/it] 30%|██▉       | 1132/3837 [3:30:03<8:22:03, 11.14s/it] 30%|██▉       | 1133/3837 [3:30:13<8:08:16, 10.83s/it] 30%|██▉       | 1134/3837 [3:30:25<8:16:09, 11.01s/it] 30%|██▉       | 1135/3837 [3:30:34<8:00:08, 10.66s/it] 30%|██▉       | 1136/3837 [3:30:46<8:09:50, 10.88s/it] 30%|██▉       | 1137/3837 [3:30:57<8:17:50, 11.06s/it] 30%|██▉       | 1138/3837 [3:31:09<8:24:49, 11.22s/it] 30%|██▉       | 1139/3837 [3:31:20<8:26:21, 11.26s/it] 30%|██▉       | 1140/3837 [3:31:32<8:30:28, 11.36s/it]                                                       {'loss': 4.3936, 'grad_norm': 18.226318359375, 'learning_rate': 8.244912379766653e-06, 'epoch': 0.3}
+ 30%|██▉       | 1140/3837 [3:31:32<8:30:28, 11.36s/it] 30%|██▉       | 1141/3837 [3:31:43<8:31:43, 11.39s/it] 30%|██▉       | 1142/3837 [3:31:55<8:32:58, 11.42s/it] 30%|██▉       | 1143/3837 [3:32:06<8:33:07, 11.43s/it] 30%|██▉       | 1144/3837 [3:32:18<8:33:44, 11.45s/it] 30%|██▉       | 1145/3837 [3:32:29<8:33:21, 11.44s/it] 30%|██▉       | 1146/3837 [3:32:39<8:14:05, 11.02s/it] 30%|██▉       | 1147/3837 [3:32:49<7:58:40, 10.68s/it] 30%|██▉       | 1148/3837 [3:32:59<7:50:58, 10.51s/it] 30%|██▉       | 1149/3837 [3:33:09<7:42:01, 10.31s/it] 30%|██▉       | 1150/3837 [3:33:20<7:57:49, 10.67s/it]                                                       {'loss': 4.3535, 'grad_norm': 17.735475540161133, 'learning_rate': 8.21268028338554e-06, 'epoch': 0.3}
+ 30%|██▉       | 1150/3837 [3:33:20<7:57:49, 10.67s/it] 30%|██▉       | 1151/3837 [3:33:32<8:09:38, 10.94s/it] 30%|███       | 1152/3837 [3:33:42<7:55:24, 10.62s/it] 30%|███       | 1153/3837 [3:33:53<8:07:11, 10.89s/it] 30%|███       | 1154/3837 [3:34:05<8:13:33, 11.04s/it] 30%|███       | 1155/3837 [3:34:16<8:18:45, 11.16s/it] 30%|███       | 1156/3837 [3:34:28<8:31:31, 11.45s/it] 30%|███       | 1157/3837 [3:34:40<8:26:57, 11.35s/it] 30%|███       | 1158/3837 [3:34:51<8:29:19, 11.41s/it] 30%|███       | 1159/3837 [3:35:03<8:31:30, 11.46s/it] 30%|███       | 1160/3837 [3:35:12<8:08:01, 10.94s/it]                                                       {'loss': 4.5458, 'grad_norm': 13.831572532653809, 'learning_rate': 8.180219181809912e-06, 'epoch': 0.3}
+ 30%|███       | 1160/3837 [3:35:12<8:08:01, 10.94s/it] 30%|███       | 1161/3837 [3:35:22<7:52:31, 10.59s/it] 30%|███       | 1162/3837 [3:35:34<8:04:42, 10.87s/it] 30%|███       | 1163/3837 [3:35:45<8:12:23, 11.05s/it] 30%|███       | 1164/3837 [3:35:57<8:18:25, 11.19s/it] 30%|███       | 1165/3837 [3:36:08<8:22:20, 11.28s/it] 30%|███       | 1166/3837 [3:36:18<8:02:42, 10.84s/it] 30%|███       | 1167/3837 [3:36:28<7:49:43, 10.56s/it] 30%|███       | 1168/3837 [3:36:39<8:01:38, 10.83s/it] 30%|███       | 1169/3837 [3:36:51<8:09:23, 11.01s/it] 30%|███       | 1170/3837 [3:37:02<8:13:48, 11.11s/it]                                                       {'loss': 4.4995, 'grad_norm': 16.973173141479492, 'learning_rate': 8.147531388921084e-06, 'epoch': 0.3}
+ 30%|███       | 1170/3837 [3:37:02<8:13:48, 11.11s/it] 31%|███       | 1171/3837 [3:37:12<7:58:24, 10.77s/it] 31%|███       | 1172/3837 [3:37:23<8:06:48, 10.96s/it] 31%|███       | 1173/3837 [3:37:35<8:12:44, 11.10s/it] 31%|███       | 1174/3837 [3:37:45<7:55:39, 10.72s/it] 31%|███       | 1175/3837 [3:37:56<8:04:47, 10.93s/it] 31%|███       | 1176/3837 [3:38:08<8:11:47, 11.09s/it] 31%|███       | 1177/3837 [3:38:19<8:16:38, 11.20s/it] 31%|███       | 1178/3837 [3:38:29<7:58:12, 10.79s/it] 31%|███       | 1179/3837 [3:38:39<7:43:21, 10.46s/it] 31%|███       | 1180/3837 [3:38:48<7:34:25, 10.26s/it]                                                       {'loss': 4.5931, 'grad_norm': 18.7071475982666, 'learning_rate': 8.114619234759307e-06, 'epoch': 0.31}
+ 31%|███       | 1180/3837 [3:38:48<7:34:25, 10.26s/it] 31%|███       | 1181/3837 [3:38:58<7:29:12, 10.15s/it] 31%|███       | 1182/3837 [3:39:10<7:47:54, 10.57s/it] 31%|███       | 1183/3837 [3:39:20<7:39:21, 10.39s/it] 31%|███       | 1184/3837 [3:39:31<7:52:11, 10.68s/it] 31%|███       | 1185/3837 [3:39:43<8:02:48, 10.92s/it] 31%|███       | 1186/3837 [3:39:54<8:09:27, 11.08s/it] 31%|███       | 1187/3837 [3:40:04<7:52:59, 10.71s/it] 31%|███       | 1188/3837 [3:40:15<8:02:29, 10.93s/it] 31%|███       | 1189/3837 [3:40:25<7:46:22, 10.57s/it] 31%|███       | 1190/3837 [3:40:38<8:20:27, 11.34s/it]                                                       {'loss': 4.3721, 'grad_norm': 19.668136596679688, 'learning_rate': 8.081485065357673e-06, 'epoch': 0.31}
+ 31%|███       | 1190/3837 [3:40:38<8:20:27, 11.34s/it] 31%|███       | 1191/3837 [3:40:50<8:21:34, 11.37s/it] 31%|███       | 1192/3837 [3:41:03<8:44:44, 11.90s/it] 31%|███       | 1193/3837 [3:41:14<8:40:16, 11.81s/it] 31%|███       | 1194/3837 [3:41:26<8:36:56, 11.74s/it] 31%|███       | 1195/3837 [3:41:37<8:32:36, 11.64s/it] 31%|███       | 1196/3837 [3:41:49<8:29:45, 11.58s/it] 31%|███       | 1197/3837 [3:42:00<8:29:44, 11.58s/it] 31%|███       | 1198/3837 [3:42:12<8:29:28, 11.58s/it] 31%|███       | 1199/3837 [3:42:24<8:29:01, 11.58s/it] 31%|███▏      | 1200/3837 [3:42:35<8:26:41, 11.53s/it]                                                       {'loss': 4.5976, 'grad_norm': 15.036663055419922, 'learning_rate': 8.048131242574891e-06, 'epoch': 0.31}
+ 31%|███▏      | 1200/3837 [3:42:35<8:26:41, 11.53s/it] 31%|███▏      | 1201/3837 [3:42:46<8:26:04, 11.52s/it] 31%|███▏      | 1202/3837 [3:42:56<8:03:55, 11.02s/it] 31%|███▏      | 1203/3837 [3:43:10<8:32:05, 11.67s/it] 31%|███▏      | 1204/3837 [3:43:21<8:29:38, 11.61s/it] 31%|███▏      | 1205/3837 [3:43:32<8:27:50, 11.58s/it] 31%|███▏      | 1206/3837 [3:43:44<8:27:02, 11.56s/it] 31%|███▏      | 1207/3837 [3:43:57<8:49:04, 12.07s/it] 31%|███▏      | 1208/3837 [3:44:07<8:20:21, 11.42s/it] 32%|███▏      | 1209/3837 [3:44:17<8:02:04, 11.01s/it] 32%|███▏      | 1210/3837 [3:44:29<8:07:39, 11.14s/it]                                                       {'loss': 4.3176, 'grad_norm': 17.58373260498047, 'learning_rate': 8.014560143926932e-06, 'epoch': 0.32}
+ 32%|███▏      | 1210/3837 [3:44:29<8:07:39, 11.14s/it] 32%|███▏      | 1211/3837 [3:44:40<8:11:44, 11.24s/it] 32%|███▏      | 1212/3837 [3:44:52<8:15:08, 11.32s/it] 32%|███▏      | 1213/3837 [3:45:03<8:16:59, 11.36s/it] 32%|███▏      | 1214/3837 [3:45:13<7:59:23, 10.97s/it] 32%|███▏      | 1215/3837 [3:45:25<8:04:37, 11.09s/it] 32%|███▏      | 1216/3837 [3:45:36<8:08:48, 11.19s/it] 32%|███▏      | 1217/3837 [3:45:46<7:54:24, 10.86s/it] 32%|███▏      | 1218/3837 [3:45:56<7:40:01, 10.54s/it] 32%|███▏      | 1219/3837 [3:46:06<7:29:02, 10.29s/it] 32%|███▏      | 1220/3837 [3:46:15<7:24:04, 10.18s/it]                                                       {'loss': 4.4521, 'grad_norm': 18.513734817504883, 'learning_rate': 7.98077416241755e-06, 'epoch': 0.32}
+ 32%|███▏      | 1220/3837 [3:46:15<7:24:04, 10.18s/it] 32%|███▏      | 1221/3837 [3:46:25<7:19:55, 10.09s/it] 32%|███▏      | 1222/3837 [3:46:35<7:17:10, 10.03s/it] 32%|███▏      | 1223/3837 [3:46:47<7:37:27, 10.50s/it] 32%|███▏      | 1224/3837 [3:46:58<7:50:29, 10.80s/it] 32%|███▏      | 1225/3837 [3:47:10<8:00:48, 11.04s/it] 32%|███▏      | 1226/3837 [3:47:21<8:06:47, 11.19s/it] 32%|███▏      | 1227/3837 [3:47:31<7:50:29, 10.82s/it] 32%|███▏      | 1228/3837 [3:47:42<7:42:11, 10.63s/it] 32%|███▏      | 1229/3837 [3:47:53<7:53:56, 10.90s/it] 32%|███▏      | 1230/3837 [3:48:05<8:01:29, 11.08s/it]                                                       {'loss': 4.3128, 'grad_norm': 16.059385299682617, 'learning_rate': 7.946775706367702e-06, 'epoch': 0.32}
+ 32%|███▏      | 1230/3837 [3:48:05<8:01:29, 11.08s/it] 32%|███▏      | 1231/3837 [3:48:15<7:45:33, 10.72s/it] 32%|███▏      | 1232/3837 [3:48:26<7:57:45, 11.00s/it] 32%|███▏      | 1233/3837 [3:48:39<8:25:26, 11.65s/it] 32%|███▏      | 1234/3837 [3:48:51<8:23:02, 11.60s/it] 32%|███▏      | 1235/3837 [3:49:02<8:20:10, 11.53s/it] 32%|███▏      | 1236/3837 [3:49:12<7:57:03, 11.00s/it] 32%|███▏      | 1237/3837 [3:49:23<8:03:09, 11.15s/it] 32%|███▏      | 1238/3837 [3:49:33<7:48:19, 10.81s/it] 32%|███▏      | 1239/3837 [3:49:45<7:58:20, 11.05s/it] 32%|███▏      | 1240/3837 [3:49:58<8:25:20, 11.68s/it]                                                       {'loss': 4.5139, 'grad_norm': 16.732637405395508, 'learning_rate': 7.91256719924389e-06, 'epoch': 0.32}
+ 32%|███▏      | 1240/3837 [3:49:58<8:25:20, 11.68s/it] 32%|███▏      | 1241/3837 [3:50:08<8:03:13, 11.17s/it] 32%|███▏      | 1242/3837 [3:50:20<8:06:45, 11.25s/it] 32%|███▏      | 1243/3837 [3:50:31<8:10:34, 11.35s/it] 32%|███▏      | 1244/3837 [3:50:41<7:50:05, 10.88s/it] 32%|███▏      | 1245/3837 [3:50:51<7:37:45, 10.60s/it] 32%|███▏      | 1246/3837 [3:51:01<7:30:12, 10.43s/it] 32%|███▏      | 1247/3837 [3:51:13<7:45:33, 10.79s/it] 33%|███▎      | 1248/3837 [3:51:22<7:32:08, 10.48s/it] 33%|███▎      | 1249/3837 [3:51:32<7:22:34, 10.26s/it] 33%|███▎      | 1250/3837 [3:51:42<7:17:55, 10.16s/it]                                                       {'loss': 4.3712, 'grad_norm': 14.471945762634277, 'learning_rate': 7.878151079485404e-06, 'epoch': 0.33}
+ 33%|███▎      | 1250/3837 [3:51:42<7:17:55, 10.16s/it] 33%|███▎      | 1251/3837 [3:51:54<7:34:56, 10.56s/it] 33%|███▎      | 1252/3837 [3:52:05<7:46:41, 10.83s/it] 33%|███▎      | 1253/3837 [3:52:16<7:54:57, 11.03s/it] 33%|███▎      | 1254/3837 [3:52:28<7:59:35, 11.14s/it] 33%|███▎      | 1255/3837 [3:52:38<7:42:39, 10.75s/it] 33%|███▎      | 1256/3837 [3:52:51<8:13:56, 11.48s/it] 33%|███▎      | 1257/3837 [3:53:02<8:14:46, 11.51s/it] 33%|███▎      | 1258/3837 [3:53:16<8:35:17, 11.99s/it] 33%|███▎      | 1259/3837 [3:53:25<8:07:13, 11.34s/it] 33%|███▎      | 1260/3837 [3:53:37<8:08:32, 11.37s/it]                                                       {'loss': 4.3276, 'grad_norm': 12.185126304626465, 'learning_rate': 7.843529800330506e-06, 'epoch': 0.33}
+ 33%|███▎      | 1260/3837 [3:53:37<8:08:32, 11.37s/it] 33%|███▎      | 1261/3837 [3:53:47<7:48:08, 10.90s/it] 33%|███▎      | 1262/3837 [3:53:56<7:34:03, 10.58s/it] 33%|███▎      | 1263/3837 [3:54:06<7:26:12, 10.40s/it] 33%|███▎      | 1264/3837 [3:54:18<7:42:34, 10.79s/it] 33%|███▎      | 1265/3837 [3:54:30<7:50:28, 10.98s/it] 33%|███▎      | 1266/3837 [3:54:39<7:36:02, 10.64s/it] 33%|███▎      | 1267/3837 [3:54:49<7:24:16, 10.37s/it] 33%|███▎      | 1268/3837 [3:54:59<7:17:24, 10.22s/it] 33%|███▎      | 1269/3837 [3:55:10<7:32:51, 10.58s/it] 33%|███▎      | 1270/3837 [3:55:22<7:45:28, 10.88s/it]                                                       {'loss': 4.2467, 'grad_norm': 14.59766674041748, 'learning_rate': 7.808705829641566e-06, 'epoch': 0.33}
+ 33%|███▎      | 1270/3837 [3:55:22<7:45:28, 10.88s/it] 33%|███▎      | 1271/3837 [3:55:33<7:52:27, 11.05s/it] 33%|███▎      | 1272/3837 [3:55:43<7:37:06, 10.69s/it] 33%|███▎      | 1273/3837 [3:55:53<7:24:36, 10.40s/it] 33%|███▎      | 1274/3837 [3:56:05<7:39:30, 10.76s/it] 33%|███▎      | 1275/3837 [3:56:16<7:48:56, 10.98s/it] 33%|███▎      | 1276/3837 [3:56:28<7:55:00, 11.13s/it] 33%|███▎      | 1277/3837 [3:56:36<7:17:03, 10.24s/it] 33%|███▎      | 1278/3837 [3:56:47<7:31:25, 10.58s/it] 33%|███▎      | 1279/3837 [3:56:59<7:42:42, 10.85s/it] 33%|███▎      | 1280/3837 [3:57:10<7:50:49, 11.05s/it]                                                       {'loss': 4.3089, 'grad_norm': 15.650346755981445, 'learning_rate': 7.773681649729134e-06, 'epoch': 0.33}
+ 33%|███▎      | 1280/3837 [3:57:10<7:50:49, 11.05s/it] 33%|███▎      | 1281/3837 [3:57:22<7:56:28, 11.18s/it] 33%|███▎      | 1282/3837 [3:57:33<8:00:09, 11.28s/it] 33%|███▎      | 1283/3837 [3:57:43<7:44:36, 10.91s/it] 33%|███▎      | 1284/3837 [3:57:55<7:52:36, 11.11s/it] 33%|███▎      | 1285/3837 [3:58:06<7:58:02, 11.24s/it] 34%|███▎      | 1286/3837 [3:58:18<8:00:37, 11.30s/it] 34%|███▎      | 1287/3837 [3:58:29<8:02:41, 11.36s/it] 34%|███▎      | 1288/3837 [3:58:41<8:03:42, 11.39s/it] 34%|███▎      | 1289/3837 [3:58:52<8:04:08, 11.40s/it] 34%|███▎      | 1290/3837 [3:59:04<8:05:04, 11.43s/it]                                                       {'loss': 4.4802, 'grad_norm': 14.673676490783691, 'learning_rate': 7.738459757175018e-06, 'epoch': 0.34}
+ 34%|███▎      | 1290/3837 [3:59:04<8:05:04, 11.43s/it] 34%|███▎      | 1291/3837 [3:59:15<8:05:20, 11.44s/it] 34%|███▎      | 1292/3837 [3:59:27<8:04:43, 11.43s/it] 34%|███▎      | 1293/3837 [3:59:37<7:46:00, 10.99s/it] 34%|███▎      | 1294/3837 [3:59:48<7:51:14, 11.12s/it] 34%|███▍      | 1295/3837 [3:59:58<7:36:47, 10.78s/it] 34%|███▍      | 1296/3837 [4:00:08<7:23:42, 10.48s/it] 34%|███▍      | 1297/3837 [4:00:19<7:35:49, 10.77s/it] 34%|███▍      | 1298/3837 [4:00:29<7:24:56, 10.51s/it] 34%|███▍      | 1299/3837 [4:00:41<7:36:53, 10.80s/it] 34%|███▍      | 1300/3837 [4:00:50<7:24:46, 10.52s/it]                                                       {'loss': 4.3544, 'grad_norm': 14.831808090209961, 'learning_rate': 7.703042662654306e-06, 'epoch': 0.34}
+ 34%|███▍      | 1300/3837 [4:00:50<7:24:46, 10.52s/it] 34%|███▍      | 1301/3837 [4:01:02<7:37:06, 10.81s/it] 34%|███▍      | 1302/3837 [4:01:12<7:24:21, 10.52s/it] 34%|███▍      | 1303/3837 [4:01:23<7:35:46, 10.79s/it] 34%|███▍      | 1304/3837 [4:01:35<7:44:08, 10.99s/it] 34%|███▍      | 1305/3837 [4:01:46<7:50:46, 11.16s/it] 34%|███▍      | 1306/3837 [4:01:58<7:56:42, 11.30s/it] 34%|███▍      | 1307/3837 [4:02:11<8:20:21, 11.87s/it] 34%|███▍      | 1308/3837 [4:02:24<8:36:33, 12.26s/it] 34%|███▍      | 1309/3837 [4:02:36<8:34:27, 12.21s/it] 34%|███▍      | 1310/3837 [4:02:48<8:26:24, 12.02s/it]                                                       {'loss': 4.5225, 'grad_norm': 17.22333526611328, 'learning_rate': 7.667432890756405e-06, 'epoch': 0.34}
+ 34%|███▍      | 1310/3837 [4:02:48<8:26:24, 12.02s/it] 34%|███▍      | 1311/3837 [4:02:59<8:18:40, 11.85s/it] 34%|███▍      | 1312/3837 [4:03:11<8:13:14, 11.72s/it] 34%|███▍      | 1313/3837 [4:03:22<8:13:22, 11.73s/it] 34%|███▍      | 1314/3837 [4:03:34<8:11:27, 11.69s/it] 34%|███▍      | 1315/3837 [4:03:46<8:09:23, 11.64s/it] 34%|███▍      | 1316/3837 [4:03:57<8:06:49, 11.59s/it] 34%|███▍      | 1317/3837 [4:04:09<8:06:22, 11.58s/it] 34%|███▍      | 1318/3837 [4:04:22<8:25:30, 12.04s/it] 34%|███▍      | 1319/3837 [4:04:32<7:57:50, 11.39s/it] 34%|███▍      | 1320/3837 [4:04:43<7:53:23, 11.28s/it]                                                       {'loss': 4.5263, 'grad_norm': 16.81097984313965, 'learning_rate': 7.631632979805091e-06, 'epoch': 0.34}
+ 34%|███▍      | 1320/3837 [4:04:43<7:53:23, 11.28s/it] 34%|███▍      | 1321/3837 [4:04:54<7:55:34, 11.34s/it] 34%|███▍      | 1322/3837 [4:05:06<7:58:22, 11.41s/it] 34%|███▍      | 1323/3837 [4:05:15<7:37:22, 10.92s/it] 35%|███▍      | 1324/3837 [4:05:27<7:43:30, 11.07s/it] 35%|███▍      | 1325/3837 [4:05:38<7:48:52, 11.20s/it] 35%|███▍      | 1326/3837 [4:05:50<7:52:27, 11.29s/it] 35%|███▍      | 1327/3837 [4:06:00<7:34:12, 10.86s/it] 35%|███▍      | 1328/3837 [4:06:11<7:42:34, 11.06s/it] 35%|███▍      | 1329/3837 [4:06:23<7:46:38, 11.16s/it] 35%|███▍      | 1330/3837 [4:06:34<7:52:46, 11.32s/it]                                                       {'loss': 4.2129, 'grad_norm': 15.247102737426758, 'learning_rate': 7.595645481677566e-06, 'epoch': 0.35}
+ 35%|███▍      | 1330/3837 [4:06:34<7:52:46, 11.32s/it] 35%|███▍      | 1331/3837 [4:06:44<7:34:21, 10.88s/it] 35%|███▍      | 1332/3837 [4:06:56<7:41:42, 11.06s/it] 35%|███▍      | 1333/3837 [4:07:06<7:27:57, 10.73s/it] 35%|███▍      | 1334/3837 [4:07:17<7:39:00, 11.00s/it] 35%|███▍      | 1335/3837 [4:07:27<7:22:41, 10.62s/it] 35%|███▍      | 1336/3837 [4:07:37<7:13:42, 10.40s/it] 35%|███▍      | 1337/3837 [4:07:48<7:27:02, 10.73s/it] 35%|███▍      | 1338/3837 [4:07:58<7:15:37, 10.46s/it] 35%|███▍      | 1339/3837 [4:08:11<7:49:18, 11.27s/it] 35%|███▍      | 1340/3837 [4:08:23<7:52:18, 11.35s/it]                                                       {'loss': 4.238, 'grad_norm': 18.437294006347656, 'learning_rate': 7.559472961622556e-06, 'epoch': 0.35}
+ 35%|███▍      | 1340/3837 [4:08:23<7:52:18, 11.35s/it] 35%|███▍      | 1341/3837 [4:08:34<7:53:54, 11.39s/it] 35%|███▍      | 1342/3837 [4:08:46<7:54:40, 11.42s/it] 35%|███▌      | 1343/3837 [4:08:56<7:33:59, 10.92s/it] 35%|███▌      | 1344/3837 [4:09:07<7:41:26, 11.11s/it] 35%|███▌      | 1345/3837 [4:09:19<7:45:57, 11.22s/it] 35%|███▌      | 1346/3837 [4:09:30<7:48:58, 11.30s/it] 35%|███▌      | 1347/3837 [4:09:42<7:50:28, 11.34s/it] 35%|███▌      | 1348/3837 [4:09:53<7:54:34, 11.44s/it] 35%|███▌      | 1349/3837 [4:10:05<7:55:57, 11.48s/it] 35%|███▌      | 1350/3837 [4:10:16<7:56:55, 11.51s/it]                                                       {'loss': 4.4029, 'grad_norm': 15.78176212310791, 'learning_rate': 7.523117998077458e-06, 'epoch': 0.35}
+ 35%|███▌      | 1350/3837 [4:10:16<7:56:55, 11.51s/it] 35%|███▌      | 1351/3837 [4:10:28<7:56:27, 11.50s/it] 35%|███▌      | 1352/3837 [4:10:39<7:57:00, 11.52s/it] 35%|███▌      | 1353/3837 [4:10:51<7:59:00, 11.57s/it] 35%|███▌      | 1354/3837 [4:11:03<7:57:16, 11.53s/it] 35%|███▌      | 1355/3837 [4:11:14<7:59:08, 11.58s/it] 35%|███▌      | 1356/3837 [4:11:24<7:37:26, 11.06s/it] 35%|███▌      | 1357/3837 [4:11:36<7:43:54, 11.22s/it] 35%|███▌      | 1358/3837 [4:11:44<7:06:06, 10.31s/it] 35%|███▌      | 1359/3837 [4:11:54<6:58:52, 10.14s/it] 35%|███▌      | 1360/3837 [4:12:05<7:15:16, 10.54s/it]                                                       {'loss': 4.2979, 'grad_norm': 15.515727996826172, 'learning_rate': 7.486583182484549e-06, 'epoch': 0.35}
+ 35%|███▌      | 1360/3837 [4:12:05<7:15:16, 10.54s/it] 35%|███▌      | 1361/3837 [4:12:17<7:27:40, 10.85s/it] 35%|███▌      | 1362/3837 [4:12:28<7:37:11, 11.08s/it] 36%|███▌      | 1363/3837 [4:12:40<7:42:29, 11.22s/it] 36%|███▌      | 1364/3837 [4:12:50<7:24:09, 10.78s/it] 36%|███▌      | 1365/3837 [4:12:59<7:11:39, 10.48s/it] 36%|███▌      | 1366/3837 [4:13:11<7:23:40, 10.77s/it] 36%|███▌      | 1367/3837 [4:13:21<7:12:38, 10.51s/it] 36%|███▌      | 1368/3837 [4:13:31<7:04:32, 10.32s/it] 36%|███▌      | 1369/3837 [4:13:42<7:18:19, 10.66s/it] 36%|███▌      | 1370/3837 [4:13:54<7:28:57, 10.92s/it]                                                       {'loss': 4.2729, 'grad_norm': 13.51162338256836, 'learning_rate': 7.449871119106255e-06, 'epoch': 0.36}
+ 36%|███▌      | 1370/3837 [4:13:54<7:28:57, 10.92s/it] 36%|███▌      | 1371/3837 [4:14:07<7:55:42, 11.57s/it] 36%|███▌      | 1372/3837 [4:14:18<7:53:39, 11.53s/it] 36%|███▌      | 1373/3837 [4:14:30<7:53:50, 11.54s/it] 36%|███▌      | 1374/3837 [4:14:39<7:32:54, 11.03s/it] 36%|███▌      | 1375/3837 [4:14:53<7:58:33, 11.66s/it] 36%|███▌      | 1376/3837 [4:15:06<8:17:07, 12.12s/it] 36%|███▌      | 1377/3837 [4:15:18<8:11:40, 11.99s/it] 36%|███▌      | 1378/3837 [4:15:29<8:05:07, 11.84s/it] 36%|███▌      | 1379/3837 [4:15:40<7:59:53, 11.71s/it] 36%|███▌      | 1380/3837 [4:15:54<8:17:32, 12.15s/it]                                                       {'loss': 4.6604, 'grad_norm': 21.5229434967041, 'learning_rate': 7.412984424839517e-06, 'epoch': 0.36}
+ 36%|███▌      | 1380/3837 [4:15:54<8:17:32, 12.15s/it] 36%|███▌      | 1381/3837 [4:16:03<7:48:44, 11.45s/it] 36%|███▌      | 1382/3837 [4:16:13<7:29:28, 10.99s/it] 36%|███▌      | 1383/3837 [4:16:23<7:15:40, 10.65s/it] 36%|███▌      | 1384/3837 [4:16:35<7:24:21, 10.87s/it] 36%|███▌      | 1385/3837 [4:16:44<7:12:52, 10.59s/it] 36%|███▌      | 1386/3837 [4:16:58<7:44:25, 11.37s/it] 36%|███▌      | 1387/3837 [4:17:09<7:45:28, 11.40s/it] 36%|███▌      | 1388/3837 [4:17:19<7:26:15, 10.93s/it] 36%|███▌      | 1389/3837 [4:17:32<7:53:13, 11.60s/it] 36%|███▌      | 1390/3837 [4:17:42<7:31:46, 11.08s/it]                                                       {'loss': 4.2956, 'grad_norm': 11.996355056762695, 'learning_rate': 7.375925729029262e-06, 'epoch': 0.36}
+ 36%|███▌      | 1390/3837 [4:17:42<7:31:46, 11.08s/it] 36%|███▋      | 1391/3837 [4:17:54<7:39:05, 11.26s/it] 36%|███▋      | 1392/3837 [4:18:03<7:20:21, 10.81s/it] 36%|███▋      | 1393/3837 [4:18:15<7:27:46, 10.99s/it] 36%|███▋      | 1394/3837 [4:18:27<7:35:26, 11.19s/it] 36%|███▋      | 1395/3837 [4:18:38<7:38:19, 11.26s/it] 36%|███▋      | 1396/3837 [4:18:49<7:41:07, 11.33s/it] 36%|███▋      | 1397/3837 [4:19:01<7:42:45, 11.38s/it] 36%|███▋      | 1398/3837 [4:19:12<7:43:16, 11.40s/it] 36%|███▋      | 1399/3837 [4:19:24<7:43:47, 11.41s/it] 36%|███▋      | 1400/3837 [4:19:34<7:24:15, 10.94s/it]                                                       {'loss': 4.1634, 'grad_norm': 13.862077713012695, 'learning_rate': 7.33869767328097e-06, 'epoch': 0.36}
+ 36%|███▋      | 1400/3837 [4:19:34<7:24:15, 10.94s/it] 37%|███▋      | 1401/3837 [4:19:43<7:09:45, 10.59s/it] 37%|███▋      | 1402/3837 [4:19:55<7:20:37, 10.86s/it] 37%|███▋      | 1403/3837 [4:20:06<7:27:20, 11.03s/it] 37%|███▋      | 1404/3837 [4:20:18<7:31:18, 11.13s/it] 37%|███▋      | 1405/3837 [4:20:28<7:15:54, 10.75s/it] 37%|███▋      | 1406/3837 [4:20:39<7:25:02, 10.98s/it] 37%|███▋      | 1407/3837 [4:20:51<7:31:24, 11.15s/it] 37%|███▋      | 1408/3837 [4:21:02<7:34:54, 11.24s/it] 37%|███▋      | 1409/3837 [4:21:14<7:38:08, 11.32s/it] 37%|███▋      | 1410/3837 [4:21:25<7:40:43, 11.39s/it]                                                       {'loss': 4.3229, 'grad_norm': 14.155905723571777, 'learning_rate': 7.301302911272377e-06, 'epoch': 0.37}
+ 37%|███▋      | 1410/3837 [4:21:25<7:40:43, 11.39s/it] 37%|███▋      | 1411/3837 [4:21:35<7:21:31, 10.92s/it] 37%|███▋      | 1412/3837 [4:21:43<6:47:58, 10.09s/it] 37%|███▋      | 1413/3837 [4:21:55<7:04:14, 10.50s/it] 37%|███▋      | 1414/3837 [4:22:06<7:16:06, 10.80s/it] 37%|███▋      | 1415/3837 [4:22:16<7:05:08, 10.53s/it] 37%|███▋      | 1416/3837 [4:22:28<7:17:15, 10.84s/it] 37%|███▋      | 1417/3837 [4:22:39<7:23:47, 11.00s/it] 37%|███▋      | 1418/3837 [4:22:50<7:28:54, 11.13s/it] 37%|███▋      | 1419/3837 [4:23:00<7:14:55, 10.79s/it] 37%|███▋      | 1420/3837 [4:23:10<7:04:44, 10.54s/it]                                                       {'loss': 4.1903, 'grad_norm': 14.502531051635742, 'learning_rate': 7.263744108564322e-06, 'epoch': 0.37}
+ 37%|███▋      | 1420/3837 [4:23:10<7:04:44, 10.54s/it] 37%|███▋      | 1421/3837 [4:23:20<6:56:59, 10.36s/it] 37%|███▋      | 1422/3837 [4:23:32<7:10:29, 10.70s/it] 37%|███▋      | 1423/3837 [4:23:43<7:20:07, 10.94s/it] 37%|███▋      | 1424/3837 [4:23:55<7:26:31, 11.10s/it] 37%|███▋      | 1425/3837 [4:24:06<7:31:10, 11.22s/it] 37%|███▋      | 1426/3837 [4:24:18<7:33:39, 11.29s/it] 37%|███▋      | 1427/3837 [4:24:29<7:35:01, 11.33s/it] 37%|███▋      | 1428/3837 [4:24:40<7:35:41, 11.35s/it] 37%|███▋      | 1429/3837 [4:24:52<7:35:21, 11.35s/it] 37%|███▋      | 1430/3837 [4:25:03<7:36:29, 11.38s/it]                                                       {'loss': 4.4647, 'grad_norm': 13.393369674682617, 'learning_rate': 7.226023942410737e-06, 'epoch': 0.37}
+ 37%|███▋      | 1430/3837 [4:25:03<7:36:29, 11.38s/it] 37%|███▋      | 1431/3837 [4:25:15<7:38:52, 11.44s/it] 37%|███▋      | 1432/3837 [4:25:25<7:18:02, 10.93s/it] 37%|███▋      | 1433/3837 [4:25:34<7:05:10, 10.61s/it] 37%|███▋      | 1434/3837 [4:25:46<7:15:33, 10.88s/it] 37%|███▋      | 1435/3837 [4:25:57<7:22:40, 11.06s/it] 37%|███▋      | 1436/3837 [4:26:09<7:28:20, 11.20s/it] 37%|███▋      | 1437/3837 [4:26:21<7:32:10, 11.30s/it] 37%|███▋      | 1438/3837 [4:26:32<7:33:16, 11.34s/it] 38%|███▊      | 1439/3837 [4:26:43<7:34:18, 11.37s/it] 38%|███▊      | 1440/3837 [4:26:56<7:54:58, 11.89s/it]                                                       {'loss': 4.2615, 'grad_norm': 15.637059211730957, 'learning_rate': 7.188145101567808e-06, 'epoch': 0.38}
+ 38%|███▊      | 1440/3837 [4:26:56<7:54:58, 11.89s/it] 38%|███▊      | 1441/3837 [4:27:08<7:48:57, 11.74s/it] 38%|███▊      | 1442/3837 [4:27:18<7:25:47, 11.17s/it] 38%|███▊      | 1443/3837 [4:27:29<7:27:42, 11.22s/it] 38%|███▊      | 1444/3837 [4:27:39<7:11:33, 10.82s/it] 38%|███▊      | 1445/3837 [4:27:50<7:19:23, 11.02s/it] 38%|███▊      | 1446/3837 [4:28:02<7:25:17, 11.17s/it] 38%|███▊      | 1447/3837 [4:28:13<7:28:08, 11.25s/it] 38%|███▊      | 1448/3837 [4:28:25<7:30:41, 11.32s/it] 38%|███▊      | 1449/3837 [4:28:36<7:33:15, 11.39s/it] 38%|███▊      | 1450/3837 [4:28:48<7:32:59, 11.39s/it]                                                       {'loss': 4.2637, 'grad_norm': 14.05248737335205, 'learning_rate': 7.150110286102317e-06, 'epoch': 0.38}
+ 38%|███▊      | 1450/3837 [4:28:48<7:32:59, 11.39s/it] 38%|███▊      | 1451/3837 [4:28:59<7:35:44, 11.46s/it] 38%|███▊      | 1452/3837 [4:29:11<7:36:51, 11.49s/it] 38%|███▊      | 1453/3837 [4:29:22<7:35:20, 11.46s/it] 38%|███▊      | 1454/3837 [4:29:35<7:54:42, 11.95s/it] 38%|███▊      | 1455/3837 [4:29:47<7:49:29, 11.83s/it] 38%|███▊      | 1456/3837 [4:29:59<7:45:36, 11.73s/it] 38%|███▊      | 1457/3837 [4:30:08<7:23:11, 11.17s/it] 38%|███▊      | 1458/3837 [4:30:20<7:26:51, 11.27s/it] 38%|███▊      | 1459/3837 [4:30:30<7:13:07, 10.93s/it] 38%|███▊      | 1460/3837 [4:30:41<7:18:47, 11.08s/it]                                                       {'loss': 4.4334, 'grad_norm': 13.274151802062988, 'learning_rate': 7.111922207199179e-06, 'epoch': 0.38}
+ 38%|███▊      | 1460/3837 [4:30:41<7:18:47, 11.08s/it] 38%|███▊      | 1461/3837 [4:30:53<7:24:11, 11.22s/it] 38%|███▊      | 1462/3837 [4:31:05<7:27:56, 11.32s/it] 38%|███▊      | 1463/3837 [4:31:14<7:10:38, 10.88s/it] 38%|███▊      | 1464/3837 [4:31:28<7:39:41, 11.62s/it] 38%|███▊      | 1465/3837 [4:31:39<7:39:19, 11.62s/it] 38%|███▊      | 1466/3837 [4:31:51<7:39:14, 11.62s/it] 38%|███▊      | 1467/3837 [4:32:04<7:58:18, 12.11s/it] 38%|███▊      | 1468/3837 [4:32:16<7:51:54, 11.95s/it] 38%|███▊      | 1469/3837 [4:32:27<7:45:25, 11.79s/it] 38%|███▊      | 1470/3837 [4:32:39<7:41:29, 11.70s/it]                                                       {'loss': 4.2808, 'grad_norm': 11.994894027709961, 'learning_rate': 7.073583586968177e-06, 'epoch': 0.38}
+ 38%|███▊      | 1470/3837 [4:32:39<7:41:29, 11.70s/it] 38%|███▊      | 1471/3837 [4:32:52<7:58:22, 12.13s/it] 38%|███▊      | 1472/3837 [4:33:03<7:51:49, 11.97s/it] 38%|███▊      | 1473/3837 [4:33:15<7:45:38, 11.82s/it] 38%|███▊      | 1474/3837 [4:33:26<7:40:40, 11.70s/it] 38%|███▊      | 1475/3837 [4:33:38<7:36:58, 11.61s/it] 38%|███▊      | 1476/3837 [4:33:49<7:34:07, 11.54s/it] 38%|███▊      | 1477/3837 [4:34:01<7:33:40, 11.53s/it] 39%|███▊      | 1478/3837 [4:34:12<7:33:47, 11.54s/it] 39%|███▊      | 1479/3837 [4:34:25<7:52:55, 12.03s/it] 39%|███▊      | 1480/3837 [4:34:37<7:47:48, 11.91s/it]                                                       {'loss': 4.3506, 'grad_norm': 14.430219650268555, 'learning_rate': 7.035097158249933e-06, 'epoch': 0.39}
+ 39%|███▊      | 1480/3837 [4:34:37<7:47:48, 11.91s/it] 39%|███▊      | 1481/3837 [4:34:47<7:24:34, 11.32s/it] 39%|███▊      | 1482/3837 [4:34:58<7:25:05, 11.34s/it] 39%|███▊      | 1483/3837 [4:35:10<7:27:01, 11.39s/it] 39%|███▊      | 1484/3837 [4:35:20<7:08:15, 10.92s/it] 39%|███▊      | 1485/3837 [4:35:31<7:14:00, 11.07s/it] 39%|███▊      | 1486/3837 [4:35:39<6:38:37, 10.17s/it] 39%|███▉      | 1487/3837 [4:35:51<6:53:33, 10.56s/it] 39%|███▉      | 1488/3837 [4:36:00<6:43:48, 10.31s/it] 39%|███▉      | 1489/3837 [4:36:12<6:58:19, 10.69s/it] 39%|███▉      | 1490/3837 [4:36:23<7:08:10, 10.95s/it]                                                       {'loss': 4.1288, 'grad_norm': 17.56449317932129, 'learning_rate': 6.996465664421105e-06, 'epoch': 0.39}
+ 39%|███▉      | 1490/3837 [4:36:23<7:08:10, 10.95s/it] 39%|███▉      | 1491/3837 [4:36:35<7:14:55, 11.12s/it] 39%|███▉      | 1492/3837 [4:36:47<7:21:33, 11.30s/it] 39%|███▉      | 1493/3837 [4:36:58<7:24:59, 11.39s/it] 39%|███▉      | 1494/3837 [4:37:08<7:09:29, 11.00s/it] 39%|███▉      | 1495/3837 [4:37:18<6:54:31, 10.62s/it] 39%|███▉      | 1496/3837 [4:37:30<7:03:41, 10.86s/it] 39%|███▉      | 1497/3837 [4:37:41<7:11:29, 11.06s/it] 39%|███▉      | 1498/3837 [4:37:51<6:57:12, 10.70s/it] 39%|███▉      | 1499/3837 [4:38:02<7:06:32, 10.95s/it] 39%|███▉      | 1500/3837 [4:38:16<7:31:46, 11.60s/it]                                                       {'loss': 4.3444, 'grad_norm': 19.60065269470215, 'learning_rate': 6.957691859198832e-06, 'epoch': 0.39}
+ 39%|███▉      | 1500/3837 [4:38:16<7:31:46, 11.60s/it] 39%|███▉      | 1501/3837 [4:38:27<7:30:39, 11.58s/it] 39%|███▉      | 1502/3837 [4:38:39<7:30:41, 11.58s/it] 39%|███▉      | 1503/3837 [4:38:50<7:29:44, 11.56s/it] 39%|███▉      | 1504/3837 [4:39:02<7:28:52, 11.54s/it] 39%|███▉      | 1505/3837 [4:39:12<7:08:40, 11.03s/it] 39%|███▉      | 1506/3837 [4:39:23<7:13:50, 11.17s/it] 39%|███▉      | 1507/3837 [4:39:35<7:17:56, 11.28s/it] 39%|███▉      | 1508/3837 [4:39:46<7:19:24, 11.32s/it] 39%|███▉      | 1509/3837 [4:39:56<7:01:45, 10.87s/it] 39%|███▉      | 1510/3837 [4:40:09<7:27:46, 11.55s/it]                                                       {'loss': 4.4992, 'grad_norm': 18.07255744934082, 'learning_rate': 6.9187785064444444e-06, 'epoch': 0.39}
+ 39%|███▉      | 1510/3837 [4:40:09<7:27:46, 11.55s/it] 39%|███▉      | 1511/3837 [4:40:19<7:06:45, 11.01s/it] 39%|███▉      | 1512/3837 [4:40:29<6:53:03, 10.66s/it] 39%|███▉      | 1513/3837 [4:40:40<7:01:47, 10.89s/it] 39%|███▉      | 1514/3837 [4:40:53<7:27:17, 11.55s/it] 39%|███▉      | 1515/3837 [4:41:05<7:25:27, 11.51s/it] 40%|███▉      | 1516/3837 [4:41:16<7:26:20, 11.54s/it] 40%|███▉      | 1517/3837 [4:41:28<7:24:48, 11.50s/it] 40%|█��█▉      | 1518/3837 [4:41:39<7:25:00, 11.51s/it] 40%|███▉      | 1519/3837 [4:41:51<7:23:55, 11.49s/it] 40%|███▉      | 1520/3837 [4:42:02<7:23:29, 11.48s/it]                                                       {'loss': 4.3032, 'grad_norm': 13.20527172088623, 'learning_rate': 6.879728379966456e-06, 'epoch': 0.4}
+ 40%|███▉      | 1520/3837 [4:42:02<7:23:29, 11.48s/it] 40%|███▉      | 1521/3837 [4:42:14<7:24:07, 11.51s/it] 40%|███▉      | 1522/3837 [4:42:25<7:22:35, 11.47s/it] 40%|███▉      | 1523/3837 [4:42:35<7:04:08, 11.00s/it] 40%|███▉      | 1524/3837 [4:42:46<7:09:28, 11.14s/it] 40%|███▉      | 1525/3837 [4:42:58<7:13:02, 11.24s/it] 40%|███▉      | 1526/3837 [4:43:09<7:15:25, 11.30s/it] 40%|███▉      | 1527/3837 [4:43:21<7:17:04, 11.35s/it] 40%|███▉      | 1528/3837 [4:43:30<6:58:37, 10.88s/it] 40%|███▉      | 1529/3837 [4:43:42<7:04:39, 11.04s/it] 40%|███▉      | 1530/3837 [4:43:53<7:10:08, 11.19s/it]                                                       {'loss': 4.1749, 'grad_norm': 14.027434349060059, 'learning_rate': 6.840544263322837e-06, 'epoch': 0.4}
+ 40%|███▉      | 1530/3837 [4:43:53<7:10:08, 11.19s/it] 40%|███▉      | 1531/3837 [4:44:03<6:53:30, 10.76s/it] 40%|███▉      | 1532/3837 [4:44:15<7:01:29, 10.97s/it] 40%|███▉      | 1533/3837 [4:44:26<7:07:14, 11.13s/it] 40%|███▉      | 1534/3837 [4:44:36<6:53:54, 10.78s/it] 40%|████      | 1535/3837 [4:44:48<7:05:35, 11.09s/it] 40%|████      | 1536/3837 [4:45:00<7:11:13, 11.24s/it] 40%|████      | 1537/3837 [4:45:11<7:14:17, 11.33s/it] 40%|████      | 1538/3837 [4:45:23<7:17:12, 11.41s/it] 40%|████      | 1539/3837 [4:45:33<6:59:57, 10.96s/it] 40%|████      | 1540/3837 [4:45:44<7:06:50, 11.15s/it]                                                       {'loss': 4.2167, 'grad_norm': 18.15109634399414, 'learning_rate': 6.801228949622601e-06, 'epoch': 0.4}
+ 40%|████      | 1540/3837 [4:45:44<7:06:50, 11.15s/it] 40%|████      | 1541/3837 [4:45:54<6:50:47, 10.73s/it] 40%|████      | 1542/3837 [4:46:05<6:58:47, 10.95s/it] 40%|████      | 1543/3837 [4:46:15<6:45:08, 10.60s/it] 40%|████      | 1544/3837 [4:46:27<6:54:28, 10.85s/it] 40%|████      | 1545/3837 [4:46:38<7:00:40, 11.01s/it] 40%|████      | 1546/3837 [4:46:49<7:05:57, 11.16s/it] 40%|████      | 1547/3837 [4:47:01<7:11:35, 11.31s/it] 40%|████      | 1548/3837 [4:47:13<7:14:01, 11.38s/it] 40%|████      | 1549/3837 [4:47:24<7:14:42, 11.40s/it] 40%|████      | 1550/3837 [4:47:36<7:19:11, 11.52s/it]                                                       {'loss': 4.3622, 'grad_norm': 16.032686233520508, 'learning_rate': 6.761785241326702e-06, 'epoch': 0.4}
+ 40%|████      | 1550/3837 [4:47:36<7:19:11, 11.52s/it] 40%|████      | 1551/3837 [4:47:49<7:37:25, 12.01s/it] 40%|████      | 1552/3837 [4:48:01<7:31:50, 11.86s/it] 40%|████      | 1553/3837 [4:48:12<7:27:48, 11.76s/it] 41%|████      | 1554/3837 [4:48:22<7:06:39, 11.21s/it] 41%|████      | 1555/3837 [4:48:34<7:10:17, 11.31s/it] 41%|████      | 1556/3837 [4:48:43<6:52:13, 10.84s/it] 41%|████      | 1557/3837 [4:48:55<6:59:45, 11.05s/it] 41%|████      | 1558/3837 [4:49:06<7:05:20, 11.20s/it] 41%|████      | 1559/3837 [4:49:16<6:49:35, 10.79s/it] 41%|████      | 1560/3837 [4:49:28<6:57:58, 11.01s/it]                                                       {'loss': 4.4087, 'grad_norm': 14.840039253234863, 'learning_rate': 6.722215950048279e-06, 'epoch': 0.41}
+ 41%|████      | 1560/3837 [4:49:28<6:57:58, 11.01s/it] 41%|████      | 1561/3837 [4:49:39<7:02:58, 11.15s/it] 41%|████      | 1562/3837 [4:49:51<7:06:27, 11.25s/it] 41%|████      | 1563/3837 [4:50:01<6:49:35, 10.81s/it] 41%|████      | 1564/3837 [4:50:12<6:56:25, 10.99s/it] 41%|████      | 1565/3837 [4:50:22<6:43:04, 10.64s/it] 41%|████      | 1566/3837 [4:50:33<6:52:08, 10.89s/it] 41%|████      | 1567/3837 [4:50:45<6:58:07, 11.05s/it] 41%|████      | 1568/3837 [4:50:56<7:02:37, 11.18s/it] 41%|████      | 1569/3837 [4:51:08<7:06:30, 11.28s/it] 41%|████      | 1570/3837 [4:51:19<7:08:07, 11.33s/it]                                                       {'loss': 4.2356, 'grad_norm': 17.22282600402832, 'learning_rate': 6.682523896352233e-06, 'epoch': 0.41}
+ 41%|████      | 1570/3837 [4:51:19<7:08:07, 11.33s/it] 41%|████      | 1571/3837 [4:51:29<6:49:42, 10.85s/it] 41%|████      | 1572/3837 [4:51:40<6:58:34, 11.09s/it] 41%|████      | 1573/3837 [4:51:52<7:02:52, 11.21s/it] 41%|████      | 1574/3837 [4:52:03<7:05:30, 11.28s/it] 41%|████      | 1575/3837 [4:52:15<7:09:04, 11.38s/it] 41%|████      | 1576/3837 [4:52:27<7:10:12, 11.42s/it] 41%|████      | 1577/3837 [4:52:36<6:52:10, 10.94s/it] 41%|████      | 1578/3837 [4:52:46<6:40:23, 10.63s/it] 41%|████      | 1579/3837 [4:52:58<6:49:08, 10.87s/it] 41%|████      | 1580/3837 [4:53:09<6:57:38, 11.10s/it]                                                       {'loss': 4.2499, 'grad_norm': 18.42442512512207, 'learning_rate': 6.6427119095541745e-06, 'epoch': 0.41}
+ 41%|████      | 1580/3837 [4:53:09<6:57:38, 11.10s/it] 41%|████      | 1581/3837 [4:53:21<7:01:23, 11.21s/it] 41%|████      | 1582/3837 [4:53:31<6:46:54, 10.83s/it] 41%|████▏     | 1583/3837 [4:53:42<6:54:00, 11.02s/it] 41%|████▏     | 1584/3837 [4:53:54<6:58:42, 11.15s/it] 41%|████▏     | 1585/3837 [4:54:05<7:01:23, 11.23s/it] 41%|████▏     | 1586/3837 [4:54:17<7:04:44, 11.32s/it] 41%|████▏     | 1587/3837 [4:54:28<7:07:36, 11.40s/it] 41%|████▏     | 1588/3837 [4:54:40<7:08:31, 11.43s/it] 41%|████▏     | 1589/3837 [4:54:51<7:09:27, 11.46s/it] 41%|████▏     | 1590/3837 [4:55:03<7:09:48, 11.48s/it]                                                       {'loss': 4.3409, 'grad_norm': 20.72328758239746, 'learning_rate': 6.602782827518745e-06, 'epoch': 0.41}
+ 41%|████▏     | 1590/3837 [4:55:03<7:09:48, 11.48s/it] 41%|████▏     | 1591/3837 [4:55:14<7:10:19, 11.50s/it] 41%|████▏     | 1592/3837 [4:55:26<7:09:32, 11.48s/it] 42%|████▏     | 1593/3837 [4:55:37<7:10:35, 11.51s/it] 42%|████▏     | 1594/3837 [4:55:47<6:52:36, 11.04s/it] 42%|████▏     | 1595/3837 [4:56:01<7:17:44, 11.71s/it] 42%|████▏     | 1596/3837 [4:56:12<7:16:38, 11.69s/it] 42%|████▏     | 1597/3837 [4:56:22<6:56:29, 11.16s/it] 42%|████▏     | 1598/3837 [4:56:34<6:59:43, 11.25s/it] 42%|████▏     | 1599/3837 [4:56:45<7:01:51, 11.31s/it] 42%|████▏     | 1600/3837 [4:56:56<7:03:47, 11.37s/it]                                                       {'loss': 4.2615, 'grad_norm': 14.20974063873291, 'learning_rate': 6.562739496457331e-06, 'epoch': 0.42}
+ 42%|████▏     | 1600/3837 [4:56:56<7:03:47, 11.37s/it] 42%|████▏     | 1601/3837 [4:57:08<7:05:59, 11.43s/it] 42%|████▏     | 1602/3837 [4:57:20<7:06:35, 11.45s/it] 42%|████▏     | 1603/3837 [4:57:31<7:07:16, 11.48s/it] 42%|████▏     | 1604/3837 [4:57:43<7:07:28, 11.49s/it] 42%|████▏     | 1605/3837 [4:57:52<6:49:09, 11.00s/it] 42%|████▏     | 1606/3837 [4:58:04<6:55:05, 11.16s/it] 42%|████▏     | 1607/3837 [4:58:14<6:40:55, 10.79s/it] 42%|████▏     | 1608/3837 [4:58:25<6:48:56, 11.01s/it] 42%|████▏     | 1609/3837 [4:58:37<6:53:29, 11.14s/it] 42%|████▏     | 1610/3837 [4:58:48<6:57:29, 11.25s/it]                                                       {'loss': 4.1779, 'grad_norm': 15.402676582336426, 'learning_rate': 6.522584770725176e-06, 'epoch': 0.42}
+ 42%|████▏     | 1610/3837 [4:58:48<6:57:29, 11.25s/it] 42%|████▏     | 1611/3837 [4:59:00<6:59:23, 11.30s/it] 42%|████▏     | 1612/3837 [4:59:10<6:41:24, 10.82s/it] 42%|████▏     | 1613/3837 [4:59:23<7:08:53, 11.57s/it] 42%|████▏     | 1614/3837 [4:59:33<6:49:14, 11.05s/it] 42%|████▏     | 1615/3837 [4:59:43<6:35:49, 10.69s/it] 42%|████▏     | 1616/3837 [4:59:52<6:27:01, 10.46s/it] 42%|████▏     | 1617/3837 [5:00:06<6:57:20, 11.28s/it] 42%|████▏     | 1618/3837 [5:00:16<6:42:51, 10.89s/it] 42%|████▏     | 1619/3837 [5:00:26<6:32:33, 10.62s/it] 42%|████▏     | 1620/3837 [5:00:35<6:23:21, 10.37s/it]                                                       {'loss': 4.1917, 'grad_norm': 12.078060150146484, 'learning_rate': 6.482321512617921e-06, 'epoch': 0.42}
+ 42%|████▏     | 1620/3837 [5:00:35<6:23:21, 10.37s/it] 42%|████▏     | 1621/3837 [5:00:45<6:17:35, 10.22s/it] 42%|████▏     | 1622/3837 [5:00:57<6:30:54, 10.59s/it] 42%|████▏     | 1623/3837 [5:01:07<6:22:14, 10.36s/it] 42%|████▏     | 1624/3837 [5:01:18<6:35:46, 10.73s/it] 42%|████▏     | 1625/3837 [5:01:31<7:02:16, 11.45s/it] 42%|████▏     | 1626/3837 [5:01:41<6:45:25, 11.00s/it] 42%|████▏     | 1627/3837 [5:01:53<6:50:16, 11.14s/it] 42%|████▏     | 1628/3837 [5:02:04<6:53:30, 11.23s/it] 42%|████▏     | 1629/3837 [5:02:17<7:14:31, 11.81s/it] 42%|████▏     | 1630/3837 [5:02:29<7:11:27, 11.73s/it]                                                       {'loss': 4.1267, 'grad_norm': 15.220149993896484, 'learning_rate': 6.441952592167581e-06, 'epoch': 0.42}
+ 42%|████▏     | 1630/3837 [5:02:29<7:11:27, 11.73s/it] 43%|████▎     | 1631/3837 [5:02:40<7:08:00, 11.64s/it] 43%|████▎     | 1632/3837 [5:02:50<6:48:07, 11.11s/it] 43%|████▎     | 1633/3837 [5:03:02<6:51:30, 11.20s/it] 43%|████▎     | 1634/3837 [5:03:13<6:54:29, 11.29s/it] 43%|████▎     | 1635/3837 [5:03:25<6:56:13, 11.34s/it] 43%|████▎     | 1636/3837 [5:03:34<6:38:08, 10.85s/it] 43%|████▎     | 1637/3837 [5:03:46<6:44:16, 11.03s/it] 43%|████▎     | 1638/3837 [5:03:55<6:30:13, 10.65s/it] 43%|████▎     | 1639/3837 [5:04:07<6:38:13, 10.87s/it] 43%|████▎     | 1640/3837 [5:04:18<6:45:17, 11.07s/it]                                                       {'loss': 4.0676, 'grad_norm': 17.776363372802734, 'learning_rate': 6.401480886937953e-06, 'epoch': 0.43}
+ 43%|████▎     | 1640/3837 [5:04:18<6:45:17, 11.07s/it] 43%|████▎     | 1641/3837 [5:04:32<7:08:11, 11.70s/it] 43%|████▎     | 1642/3837 [5:04:43<7:05:45, 11.64s/it] 43%|████▎     | 1643/3837 [5:04:55<7:04:18, 11.60s/it] 43%|████▎     | 1644/3837 [5:05:04<6:45:02, 11.08s/it] 43%|████▎     | 1645/3837 [5:05:16<6:50:41, 11.24s/it] 43%|████▎     | 1646/3837 [5:05:26<6:35:37, 10.83s/it] 43%|████▎     | 1647/3837 [5:05:37<6:43:31, 11.06s/it] 43%|████▎     | 1648/3837 [5:05:51<7:05:37, 11.67s/it] 43%|████▎     | 1649/3837 [5:06:02<7:02:08, 11.58s/it] 43%|████▎     | 1650/3837 [5:06:12<6:42:16, 11.04s/it]                                                       {'loss': 4.1282, 'grad_norm': 12.913515090942383, 'learning_rate': 6.360909281819504e-06, 'epoch': 0.43}
+ 43%|████▎     | 1650/3837 [5:06:12<6:42:16, 11.04s/it] 43%|████▎     | 1651/3837 [5:06:23<6:46:57, 11.17s/it] 43%|████▎     | 1652/3837 [5:06:33<6:32:53, 10.79s/it] 43%|████▎     | 1653/3837 [5:06:45<6:41:52, 11.04s/it] 43%|████▎     | 1654/3837 [5:06:56<6:48:32, 11.23s/it] 43%|████▎     | 1655/3837 [5:07:08<6:52:32, 11.34s/it] 43%|████▎     | 1656/3837 [5:07:18<6:36:05, 10.90s/it] 43%|████▎     | 1657/3837 [5:07:28<6:24:41, 10.59s/it] 43%|████▎     | 1658/3837 [5:07:39<6:34:21, 10.86s/it] 43%|████▎     | 1659/3837 [5:07:49<6:23:20, 10.56s/it] 43%|████▎     | 1660/3837 [5:07:59<6:14:27, 10.32s/it]                                                       {'loss': 4.0471, 'grad_norm': 11.285195350646973, 'learning_rate': 6.320240668823736e-06, 'epoch': 0.43}
+ 43%|████▎     | 1660/3837 [5:07:59<6:14:27, 10.32s/it] 43%|████▎     | 1661/3837 [5:08:12<6:45:13, 11.17s/it] 43%|████▎     | 1662/3837 [5:08:22<6:29:53, 10.76s/it] 43%|████▎     | 1663/3837 [5:08:33<6:36:41, 10.95s/it] 43%|████▎     | 1664/3837 [5:08:45<6:41:15, 11.08s/it] 43%|████▎     | 1665/3837 [5:08:54<6:25:44, 10.66s/it] 43%|████▎     | 1666/3837 [5:09:04<6:16:17, 10.40s/it] 43%|████▎     | 1667/3837 [5:09:14<6:10:20, 10.24s/it] 43%|████▎     | 1668/3837 [5:09:25<6:24:04, 10.62s/it] 43%|████▎     | 1669/3837 [5:09:34<5:56:30,  9.87s/it] 44%|████▎     | 1670/3837 [5:09:43<5:57:16,  9.89s/it]                                                       {'loss': 3.8555, 'grad_norm': 10.345324516296387, 'learning_rate': 6.279477946877028e-06, 'epoch': 0.44}
+ 44%|████▎     | 1670/3837 [5:09:43<5:57:16,  9.89s/it] 44%|████▎     | 1671/3837 [5:09:55<6:13:55, 10.36s/it] 44%|████▎     | 1672/3837 [5:10:06<6:25:25, 10.68s/it] 44%|████▎     | 1673/3837 [5:10:18<6:35:00, 10.95s/it] 44%|████▎     | 1674/3837 [5:10:29<6:40:42, 11.12s/it] 44%|████▎     | 1675/3837 [5:10:39<6:26:30, 10.73s/it] 44%|████▎     | 1676/3837 [5:10:51<6:35:20, 10.98s/it] 44%|████▎     | 1677/3837 [5:11:02<6:41:38, 11.16s/it] 44%|████▎     | 1678/3837 [5:11:12<6:28:03, 10.78s/it] 44%|████▍     | 1679/3837 [5:11:25<6:53:51, 11.51s/it] 44%|████▍     | 1680/3837 [5:11:37<6:54:18, 11.52s/it]                                                       {'loss': 3.9643, 'grad_norm': 13.721894264221191, 'learning_rate': 6.23862402161401e-06, 'epoch': 0.44}
+ 44%|████▍     | 1680/3837 [5:11:37<6:54:18, 11.52s/it] 44%|████▍     | 1681/3837 [5:11:50<7:11:09, 12.00s/it] 44%|████▍     | 1682/3837 [5:12:00<6:46:44, 11.32s/it] 44%|████▍     | 1683/3837 [5:12:11<6:47:15, 11.34s/it] 44%|████▍     | 1684/3837 [5:12:21<6:33:51, 10.98s/it] 44%|████▍     | 1685/3837 [5:12:33<6:38:17, 11.10s/it] 44%|████▍     | 1686/3837 [5:12:44<6:44:13, 11.28s/it] 44%|████▍     | 1687/3837 [5:12:56<6:45:29, 11.32s/it] 44%|████▍     | 1688/3837 [5:13:07<6:47:21, 11.37s/it] 44%|████▍     | 1689/3837 [5:13:19<6:49:05, 11.43s/it] 44%|████▍     | 1690/3837 [5:13:32<7:07:15, 11.94s/it]                                                       {'loss': 4.0938, 'grad_norm': 15.820916175842285, 'learning_rate': 6.197681805170422e-06, 'epoch': 0.44}
+ 44%|████▍     | 1690/3837 [5:13:32<7:07:15, 11.94s/it] 44%|████▍     | 1691/3837 [5:13:42<6:44:56, 11.32s/it] 44%|████▍     | 1692/3837 [5:13:52<6:29:49, 10.90s/it] 44%|████▍     | 1693/3837 [5:14:00<6:00:16, 10.08s/it] 44%|████▍     | 1694/3837 [5:14:10<5:58:26, 10.04s/it] 44%|████▍     | 1695/3837 [5:14:21<6:12:47, 10.44s/it] 44%|████▍     | 1696/3837 [5:14:33<6:22:44, 10.73s/it] 44%|████▍     | 1697/3837 [5:14:44<6:29:38, 10.92s/it] 44%|████▍     | 1698/3837 [5:14:56<6:34:42, 11.07s/it] 44%|████▍     | 1699/3837 [5:15:07<6:39:04, 11.20s/it] 44%|████▍     | 1700/3837 [5:15:19<6:43:04, 11.32s/it]                                                       {'loss': 3.9832, 'grad_norm': 17.715919494628906, 'learning_rate': 6.1566542159755595e-06, 'epoch': 0.44}
+ 44%|████▍     | 1700/3837 [5:15:19<6:43:04, 11.32s/it] 44%|████▍     | 1701/3837 [5:15:29<6:27:00, 10.87s/it] 44%|████▍     | 1702/3837 [5:15:40<6:34:01, 11.07s/it] 44%|████▍     | 1703/3837 [5:15:52<6:38:29, 11.20s/it] 44%|████▍     | 1704/3837 [5:16:03<6:41:50, 11.30s/it] 44%|████▍     | 1705/3837 [5:16:15<6:43:47, 11.36s/it] 44%|████▍     | 1706/3837 [5:16:25<6:28:03, 10.93s/it] 44%|████▍     | 1707/3837 [5:16:34<6:16:10, 10.60s/it] 45%|████▍     | 1708/3837 [5:16:42<5:49:59,  9.86s/it] 45%|████▍     | 1709/3837 [5:16:54<6:08:03, 10.38s/it] 45%|████▍     | 1710/3837 [5:17:04<6:03:20, 10.25s/it]                                                       {'loss': 3.9275, 'grad_norm': 8.974435806274414, 'learning_rate': 6.115544178544225e-06, 'epoch': 0.45}
+ 45%|████▍     | 1710/3837 [5:17:04<6:03:20, 10.25s/it] 45%|████▍     | 1711/3837 [5:17:14<5:59:06, 10.13s/it] 45%|████▍     | 1712/3837 [5:17:26<6:15:20, 10.60s/it] 45%|████▍     | 1713/3837 [5:17:37<6:25:09, 10.88s/it] 45%|████▍     | 1714/3837 [5:17:49<6:30:46, 11.04s/it] 45%|████▍     | 1715/3837 [5:17:58<6:17:29, 10.67s/it] 45%|████▍     | 1716/3837 [5:18:10<6:27:39, 10.97s/it] 45%|████▍     | 1717/3837 [5:18:23<6:51:25, 11.64s/it] 45%|████▍     | 1718/3837 [5:18:35<6:49:41, 11.60s/it] 45%|████▍     | 1719/3837 [5:18:46<6:47:59, 11.56s/it] 45%|████▍     | 1720/3837 [5:18:58<6:47:57, 11.56s/it]                                                       {'loss': 4.3123, 'grad_norm': 17.12237548828125, 'learning_rate': 6.074354623268267e-06, 'epoch': 0.45}
+ 45%|████▍     | 1720/3837 [5:18:58<6:47:57, 11.56s/it] 45%|████▍     | 1721/3837 [5:19:09<6:46:25, 11.52s/it] 45%|████▍     | 1722/3837 [5:19:19<6:27:57, 11.01s/it] 45%|████▍     | 1723/3837 [5:19:30<6:32:13, 11.13s/it] 45%|████▍     | 1724/3837 [5:19:42<6:35:26, 11.23s/it] 45%|████▍     | 1725/3837 [5:19:52<6:20:23, 10.81s/it] 45%|████▍     | 1726/3837 [5:20:01<6:09:29, 10.50s/it] 45%|████▌     | 1727/3837 [5:20:10<5:44:12,  9.79s/it] 45%|████▌     | 1728/3837 [5:20:22<6:08:38, 10.49s/it] 45%|████▌     | 1729/3837 [5:20:35<6:36:21, 11.28s/it] 45%|████▌     | 1730/3837 [5:20:47<6:41:16, 11.43s/it]                                                       {'loss': 3.9415, 'grad_norm': 16.286693572998047, 'learning_rate': 6.0330884862077e-06, 'epoch': 0.45}
+ 45%|████▌     | 1730/3837 [5:20:47<6:41:16, 11.43s/it] 45%|████▌     | 1731/3837 [5:20:56<6:24:24, 10.95s/it] 45%|████▌     | 1732/3837 [5:21:08<6:29:45, 11.11s/it] 45%|████▌     | 1733/3837 [5:21:18<6:15:59, 10.72s/it] 45%|████▌     | 1734/3837 [5:21:28<6:06:03, 10.44s/it] 45%|████▌     | 1735/3837 [5:21:39<6:17:20, 10.77s/it] 45%|████▌     | 1736/3837 [5:21:51<6:24:47, 10.99s/it] 45%|████▌     | 1737/3837 [5:22:00<6:11:22, 10.61s/it] 45%|████▌     | 1738/3837 [5:22:12<6:20:00, 10.86s/it] 45%|████▌     | 1739/3837 [5:22:22<6:08:53, 10.55s/it] 45%|████▌     | 1740/3837 [5:22:33<6:18:07, 10.82s/it]                                                       {'loss': 3.7763, 'grad_norm': 15.777528762817383, 'learning_rate': 5.9917487088814155e-06, 'epoch': 0.45}
+ 45%|████▌     | 1740/3837 [5:22:33<6:18:07, 10.82s/it] 45%|████▌     | 1741/3837 [5:22:45<6:26:03, 11.05s/it] 45%|████▌     | 1742/3837 [5:22:56<6:30:54, 11.20s/it] 45%|████▌     | 1743/3837 [5:23:06<6:16:16, 10.78s/it] 45%|████▌     | 1744/3837 [5:23:18<6:25:13, 11.04s/it] 45%|████▌     | 1745/3837 [5:23:27<6:11:13, 10.65s/it] 46%|████▌     | 1746/3837 [5:23:39<6:20:39, 10.92s/it] 46%|████▌     | 1747/3837 [5:23:50<6:25:37, 11.07s/it] 46%|████▌     | 1748/3837 [5:24:02<6:30:08, 11.21s/it] 46%|████▌     | 1749/3837 [5:24:13<6:26:50, 11.12s/it] 46%|████▌     | 1750/3837 [5:24:23<6:13:14, 10.73s/it]                                                       {'loss': 3.9306, 'grad_norm': 13.690078735351562, 'learning_rate': 5.950338238057504e-06, 'epoch': 0.46}
+ 46%|████▌     | 1750/3837 [5:24:23<6:13:14, 10.73s/it] 46%|████▌     | 1751/3837 [5:24:34<6:20:56, 10.96s/it] 46%|████▌     | 1752/3837 [5:24:45<6:25:03, 11.08s/it] 46%|████▌     | 1753/3837 [5:24:57<6:28:10, 11.18s/it] 46%|████▌     | 1754/3837 [5:25:08<6:31:55, 11.29s/it] 46%|████▌     | 1755/3837 [5:25:18<6:16:56, 10.86s/it] 46%|████▌     | 1756/3837 [5:25:32<6:41:58, 11.59s/it] 46%|████▌     | 1757/3837 [5:25:43<6:40:21, 11.55s/it] 46%|████▌     | 1758/3837 [5:25:53<6:21:10, 11.00s/it] 46%|████▌     | 1759/3837 [5:26:04<6:24:53, 11.11s/it] 46%|████▌     | 1760/3837 [5:26:16<6:28:41, 11.23s/it]                                                       {'loss': 4.0651, 'grad_norm': 15.70811939239502, 'learning_rate': 5.908860025543209e-06, 'epoch': 0.46}
+ 46%|████▌     | 1760/3837 [5:26:16<6:28:41, 11.23s/it] 46%|████▌     | 1761/3837 [5:26:27<6:30:41, 11.29s/it] 46%|████▌     | 1762/3837 [5:26:38<6:31:44, 11.33s/it] 46%|████▌     | 1763/3837 [5:26:50<6:32:08, 11.34s/it] 46%|████▌     | 1764/3837 [5:27:01<6:32:23, 11.36s/it] 46%|████▌     | 1765/3837 [5:27:13<6:32:58, 11.38s/it] 46%|████▌     | 1766/3837 [5:27:23<6:17:23, 10.93s/it] 46%|████▌     | 1767/3837 [5:27:36<6:40:21, 11.60s/it] 46%|████▌     | 1768/3837 [5:27:46<6:21:35, 11.07s/it] 46%|████▌     | 1769/3837 [5:27:57<6:24:56, 11.17s/it] 46%|████▌     | 1770/3837 [5:28:08<6:28:08, 11.27s/it]                                                       {'loss': 4.1444, 'grad_norm': 17.726015090942383, 'learning_rate': 5.8673170279745095e-06, 'epoch': 0.46}
+ 46%|████▌     | 1770/3837 [5:28:08<6:28:08, 11.27s/it] 46%|████▌     | 1771/3837 [5:28:20<6:30:26, 11.34s/it] 46%|████▌     | 1772/3837 [5:28:31<6:31:30, 11.38s/it] 46%|████▌     | 1773/3837 [5:28:43<6:33:15, 11.43s/it] 46%|████▌     | 1774/3837 [5:28:54<6:32:56, 11.43s/it] 46%|████▋     | 1775/3837 [5:29:06<6:32:44, 11.43s/it] 46%|████▋     | 1776/3837 [5:29:16<6:16:41, 10.97s/it] 46%|████▋     | 1777/3837 [5:29:27<6:21:52, 11.12s/it] 46%|████▋     | 1778/3837 [5:29:39<6:25:50, 11.24s/it] 46%|████▋     | 1779/3837 [5:29:50<6:27:03, 11.28s/it] 46%|████▋     | 1780/3837 [5:30:00<6:11:18, 10.83s/it]                                                       {'loss': 4.0553, 'grad_norm': 14.940733909606934, 'learning_rate': 5.825712206605378e-06, 'epoch': 0.46}
+ 46%|████▋     | 1780/3837 [5:30:00<6:11:18, 10.83s/it] 46%|████▋     | 1781/3837 [5:30:11<6:18:20, 11.04s/it] 46%|████▋     | 1782/3837 [5:30:23<6:22:21, 11.16s/it] 46%|████▋     | 1783/3837 [5:30:34<6:19:37, 11.09s/it] 46%|████▋     | 1784/3837 [5:30:45<6:22:23, 11.18s/it] 47%|████▋     | 1785/3837 [5:30:55<6:08:41, 10.78s/it] 47%|████▋     | 1786/3837 [5:31:07<6:16:46, 11.02s/it] 47%|████▋     | 1787/3837 [5:31:18<6:20:48, 11.15s/it] 47%|████▋     | 1788/3837 [5:31:31<6:35:44, 11.59s/it] 47%|████▋     | 1789/3837 [5:31:40<6:17:10, 11.05s/it] 47%|████▋     | 1790/3837 [5:31:52<6:22:05, 11.20s/it]                                                       {'loss': 4.0629, 'grad_norm': 14.057848930358887, 'learning_rate': 5.784048527096684e-06, 'epoch': 0.47}
+ 47%|████▋     | 1790/3837 [5:31:52<6:22:05, 11.20s/it] 47%|████▋     | 1791/3837 [5:32:02<6:06:29, 10.75s/it] 47%|████▋     | 1792/3837 [5:32:15<6:31:03, 11.47s/it] 47%|████▋     | 1793/3837 [5:32:26<6:30:05, 11.45s/it] 47%|████▋     | 1794/3837 [5:32:38<6:29:52, 11.45s/it] 47%|████▋     | 1795/3837 [5:32:48<6:13:32, 10.98s/it] 47%|████▋     | 1796/3837 [5:32:59<6:17:43, 11.10s/it] 47%|████▋     | 1797/3837 [5:33:10<6:20:30, 11.19s/it] 47%|████▋     | 1798/3837 [5:33:22<6:22:54, 11.27s/it] 47%|████▋     | 1799/3837 [5:33:33<6:23:50, 11.30s/it] 47%|████▋     | 1800/3837 [5:33:45<6:25:10, 11.35s/it]                                                       {'loss': 4.0647, 'grad_norm': 16.68400764465332, 'learning_rate': 5.742328959304807e-06, 'epoch': 0.47}
+ 47%|████▋     | 1800/3837 [5:33:45<6:25:10, 11.35s/it] 47%|████▋     | 1801/3837 [5:33:54<6:08:52, 10.87s/it] 47%|████▋     | 1802/3837 [5:34:06<6:14:33, 11.04s/it] 47%|████▋     | 1803/3837 [5:34:17<6:19:47, 11.20s/it] 47%|████▋     | 1804/3837 [5:34:29<6:22:39, 11.29s/it] 47%|████▋     | 1805/3837 [5:34:42<6:42:26, 11.88s/it] 47%|████▋     | 1806/3837 [5:34:52<6:20:54, 11.25s/it] 47%|████▋     | 1807/3837 [5:35:03<6:23:25, 11.33s/it] 47%|████▋     | 1808/3837 [5:35:13<6:07:36, 10.87s/it] 47%|████▋     | 1809/3837 [5:35:25<6:13:14, 11.04s/it] 47%|████▋     | 1810/3837 [5:35:36<6:18:27, 11.20s/it]                                                       {'loss': 3.9701, 'grad_norm': 13.257894515991211, 'learning_rate': 5.700556477069933e-06, 'epoch': 0.47}
+ 47%|████▋     | 1810/3837 [5:35:36<6:18:27, 11.20s/it] 47%|████▋     | 1811/3837 [5:35:46<6:04:37, 10.80s/it] 47%|████▋     | 1812/3837 [5:35:58<6:12:30, 11.04s/it] 47%|████▋     | 1813/3837 [5:36:09<6:16:16, 11.15s/it] 47%|████▋     | 1814/3837 [5:36:19<6:02:39, 10.76s/it] 47%|████▋     | 1815/3837 [5:36:30<6:09:30, 10.96s/it] 47%|████▋     | 1816/3837 [5:36:42<6:15:22, 11.14s/it] 47%|████▋     | 1817/3837 [5:36:53<6:17:54, 11.22s/it] 47%|████▋     | 1818/3837 [5:37:03<6:05:37, 10.87s/it] 47%|████▋     | 1819/3837 [5:37:13<5:54:05, 10.53s/it] 47%|████▋     | 1820/3837 [5:37:25<6:04:18, 10.84s/it]                                                       {'loss': 4.1676, 'grad_norm': 14.973817825317383, 'learning_rate': 5.65873405800408e-06, 'epoch': 0.47}
+ 47%|████▋     | 1820/3837 [5:37:25<6:04:18, 10.84s/it] 47%|████▋     | 1821/3837 [5:37:35<5:53:40, 10.53s/it] 47%|████▋     | 1822/3837 [5:37:46<6:03:20, 10.82s/it] 48%|████▊     | 1823/3837 [5:37:57<6:08:51, 10.99s/it] 48%|████▊     | 1824/3837 [5:38:07<5:57:28, 10.66s/it] 48%|████▊     | 1825/3837 [5:38:19<6:05:24, 10.90s/it] 48%|████▊     | 1826/3837 [5:38:30<6:12:36, 11.12s/it] 48%|████▊     | 1827/3837 [5:38:42<6:16:01, 11.22s/it] 48%|████▊     | 1828/3837 [5:38:53<6:18:17, 11.30s/it] 48%|████▊     | 1829/3837 [5:39:05<6:18:39, 11.31s/it] 48%|████▊     | 1830/3837 [5:39:14<6:03:18, 10.86s/it]                                                       {'loss': 3.9516, 'grad_norm': 16.108644485473633, 'learning_rate': 5.616864683278848e-06, 'epoch': 0.48}
+ 48%|████▊     | 1830/3837 [5:39:14<6:03:18, 10.86s/it] 48%|████▊     | 1831/3837 [5:39:26<6:08:55, 11.03s/it] 48%|████▊     | 1832/3837 [5:39:37<6:13:26, 11.18s/it] 48%|████▊     | 1833/3837 [5:39:49<6:16:14, 11.26s/it] 48%|████▊     | 1834/3837 [5:40:00<6:18:10, 11.33s/it] 48%|████▊     | 1835/3837 [5:40:10<6:02:32, 10.87s/it] 48%|████▊     | 1836/3837 [5:40:22<6:08:40, 11.05s/it] 48%|████▊     | 1837/3837 [5:40:32<5:56:43, 10.70s/it] 48%|████▊     | 1838/3837 [5:40:43<6:04:06, 10.93s/it] 48%|████▊     | 1839/3837 [5:40:54<6:09:23, 11.09s/it] 48%|████▊     | 1840/3837 [5:41:06<6:13:29, 11.22s/it]                                                       {'loss': 4.1029, 'grad_norm': 15.061484336853027, 'learning_rate': 5.574951337412908e-06, 'epoch': 0.48}
+ 48%|████▊     | 1840/3837 [5:41:06<6:13:29, 11.22s/it] 48%|████▊     | 1841/3837 [5:41:16<6:00:27, 10.84s/it] 48%|████▊     | 1842/3837 [5:41:26<5:50:42, 10.55s/it] 48%|████▊     | 1843/3837 [5:41:36<5:44:03, 10.35s/it] 48%|████▊     | 1844/3837 [5:41:45<5:38:13, 10.18s/it] 48%|████▊     | 1845/3837 [5:41:56<5:36:34, 10.14s/it] 48%|████▊     | 1846/3837 [5:42:05<5:33:57, 10.06s/it] 48%|████▊     | 1847/3837 [5:42:15<5:30:21,  9.96s/it] 48%|████▊     | 1848/3837 [5:42:27<5:44:42, 10.40s/it] 48%|████▊     | 1849/3837 [5:42:38<5:56:27, 10.76s/it] 48%|████▊     | 1850/3837 [5:42:50<6:02:52, 10.96s/it]                                                       {'loss': 3.8363, 'grad_norm': 14.548176765441895, 'learning_rate': 5.532997008059274e-06, 'epoch': 0.48}
+ 48%|████▊     | 1850/3837 [5:42:50<6:02:52, 10.96s/it] 48%|████▊     | 1851/3837 [5:43:01<6:08:24, 11.13s/it] 48%|████▊     | 1852/3837 [5:43:14<6:27:15, 11.71s/it] 48%|████▊     | 1853/3837 [5:43:26<6:26:14, 11.68s/it] 48%|████▊     | 1854/3837 [5:43:34<5:52:58, 10.68s/it] 48%|████▊     | 1855/3837 [5:43:46<5:59:48, 10.89s/it] 48%|████▊     | 1856/3837 [5:43:55<5:48:17, 10.55s/it] 48%|████▊     | 1857/3837 [5:44:07<5:57:17, 10.83s/it] 48%|████▊     | 1858/3837 [5:44:20<6:19:47, 11.51s/it] 48%|████▊     | 1859/3837 [5:44:31<6:19:12, 11.50s/it] 48%|████▊     | 1860/3837 [5:44:41<6:02:52, 11.01s/it]                                                       {'loss': 3.952, 'grad_norm': 14.403671264648438, 'learning_rate': 5.4910046857923286e-06, 'epoch': 0.48}
+ 48%|████▊     | 1860/3837 [5:44:41<6:02:52, 11.01s/it] 49%|████▊     | 1861/3837 [5:44:51<5:51:56, 10.69s/it] 49%|████▊     | 1862/3837 [5:45:03<5:59:58, 10.94s/it] 49%|████▊     | 1863/3837 [5:45:14<6:06:18, 11.13s/it] 49%|████▊     | 1864/3837 [5:45:26<6:09:10, 11.23s/it] 49%|████▊     | 1865/3837 [5:45:39<6:29:02, 11.84s/it] 49%|████▊     | 1866/3837 [5:45:49<6:11:07, 11.30s/it] 49%|████▊     | 1867/3837 [5:46:00<6:12:45, 11.35s/it] 49%|████▊     | 1868/3837 [5:46:12<6:13:37, 11.39s/it] 49%|████▊     | 1869/3837 [5:46:23<6:13:41, 11.39s/it] 49%|████▊     | 1870/3837 [5:46:33<5:59:25, 10.96s/it]                                                       {'loss': 3.9628, 'grad_norm': 13.332658767700195, 'learning_rate': 5.44897736389465e-06, 'epoch': 0.49}
+ 49%|████▊     | 1870/3837 [5:46:33<5:59:25, 10.96s/it] 49%|████▉     | 1871/3837 [5:46:43<5:48:09, 10.63s/it] 49%|████▉     | 1872/3837 [5:46:53<5:40:33, 10.40s/it] 49%|████▉     | 1873/3837 [5:47:04<5:51:00, 10.72s/it] 49%|████▉     | 1874/3837 [5:47:16<5:58:12, 10.95s/it] 49%|████▉     | 1875/3837 [5:47:27<6:03:36, 11.12s/it] 49%|████▉     | 1876/3837 [5:47:39<6:07:31, 11.25s/it] 49%|████▉     | 1877/3837 [5:47:51<6:10:11, 11.33s/it] 49%|████▉     | 1878/3837 [5:48:02<6:10:32, 11.35s/it] 49%|████▉     | 1879/3837 [5:48:10<5:41:29, 10.46s/it] 49%|████▉     | 1880/3837 [5:48:20<5:35:25, 10.28s/it]                                                       {'loss': 3.9829, 'grad_norm': 12.246014595031738, 'learning_rate': 5.406918038143653e-06, 'epoch': 0.49}
+ 49%|████▉     | 1880/3837 [5:48:20<5:35:25, 10.28s/it] 49%|████▉     | 1881/3837 [5:48:33<6:02:49, 11.13s/it] 49%|████▉     | 1882/3837 [5:48:45<6:06:01, 11.23s/it] 49%|████▉     | 1883/3837 [5:48:55<5:52:48, 10.83s/it] 49%|████▉     | 1884/3837 [5:49:06<6:00:05, 11.06s/it] 49%|████▉     | 1885/3837 [5:49:16<5:49:31, 10.74s/it] 49%|████▉     | 1886/3837 [5:49:28<5:56:11, 10.95s/it] 49%|████▉     | 1887/3837 [5:49:38<5:44:58, 10.61s/it] 49%|████▉     | 1888/3837 [5:49:49<5:53:24, 10.88s/it] 49%|████▉     | 1889/3837 [5:50:00<5:58:43, 11.05s/it] 49%|████▉     | 1890/3837 [5:50:12<6:03:51, 11.21s/it]                                                       {'loss': 3.9532, 'grad_norm': 14.760672569274902, 'learning_rate': 5.364829706598036e-06, 'epoch': 0.49}
+ 49%|████▉     | 1890/3837 [5:50:12<6:03:51, 11.21s/it] 49%|████▉     | 1891/3837 [5:50:24<6:07:28, 11.33s/it] 49%|████▉     | 1892/3837 [5:50:34<5:53:41, 10.91s/it] 49%|████▉     | 1893/3837 [5:50:45<6:00:06, 11.11s/it] 49%|████▉     | 1894/3837 [5:50:55<5:47:19, 10.73s/it] 49%|████▉     | 1895/3837 [5:51:07<5:54:32, 10.95s/it] 49%|████▉     | 1896/3837 [5:51:18<5:59:20, 11.11s/it] 49%|████▉     | 1897/3837 [5:51:29<6:02:39, 11.22s/it] 49%|████▉     | 1898/3837 [5:51:40<5:52:50, 10.92s/it] 49%|████▉     | 1899/3837 [5:51:50<5:43:07, 10.62s/it] 50%|████▉     | 1900/3837 [5:52:01<5:51:49, 10.90s/it]                                                       {'loss': 3.98, 'grad_norm': 14.489956855773926, 'learning_rate': 5.322715369384081e-06, 'epoch': 0.5}
+ 50%|████▉     | 1900/3837 [5:52:01<5:51:49, 10.90s/it] 50%|████▉     | 1901/3837 [5:52:13<5:56:29, 11.05s/it] 50%|████▉     | 1902/3837 [5:52:22<5:44:26, 10.68s/it] 50%|████▉     | 1903/3837 [5:52:34<5:52:07, 10.92s/it] 50%|████▉     | 1904/3837 [5:52:47<6:13:30, 11.59s/it] 50%|████▉     | 1905/3837 [5:52:59<6:12:22, 11.56s/it] 50%|████▉     | 1906/3837 [5:53:08<5:55:33, 11.05s/it] 50%|████▉     | 1907/3837 [5:53:20<5:58:41, 11.15s/it] 50%|████▉     | 1908/3837 [5:53:31<5:56:05, 11.08s/it] 50%|████▉     | 1909/3837 [5:53:41<5:44:50, 10.73s/it] 50%|████▉     | 1910/3837 [5:53:52<5:51:37, 10.95s/it]                                                       {'loss': 3.8639, 'grad_norm': 16.848976135253906, 'learning_rate': 5.2805780284817985e-06, 'epoch': 0.5}
+ 50%|████▉     | 1910/3837 [5:53:52<5:51:37, 10.95s/it] 50%|████▉     | 1911/3837 [5:54:04<5:57:32, 11.14s/it] 50%|████▉     | 1912/3837 [5:54:15<6:00:02, 11.22s/it] 50%|████▉     | 1913/3837 [5:54:27<6:03:22, 11.33s/it] 50%|████▉     | 1914/3837 [5:54:38<6:04:22, 11.37s/it] 50%|████▉     | 1915/3837 [5:54:48<5:50:27, 10.94s/it] 50%|████▉     | 1916/3837 [5:54:58<5:40:34, 10.64s/it] 50%|████▉     | 1917/3837 [5:55:11<6:04:34, 11.39s/it] 50%|████▉     | 1918/3837 [5:55:24<6:20:54, 11.91s/it] 50%|█████     | 1919/3837 [5:55:34<6:01:43, 11.32s/it] 50%|█████     | 1920/3837 [5:55:46<6:02:46, 11.35s/it]                                                       {'loss': 4.0984, 'grad_norm': 15.439696311950684, 'learning_rate': 5.238420687510938e-06, 'epoch': 0.5}
+ 50%|█████     | 1920/3837 [5:55:46<6:02:46, 11.35s/it] 50%|█████     | 1921/3837 [5:55:57<6:03:21, 11.38s/it] 50%|█████     | 1922/3837 [5:56:08<6:03:57, 11.40s/it] 50%|█████     | 1923/3837 [5:56:20<6:06:14, 11.48s/it] 50%|█████     | 1924/3837 [5:56:30<5:50:01, 10.98s/it] 50%|█████     | 1925/3837 [5:56:40<5:39:10, 10.64s/it] 50%|█████     | 1926/3837 [5:56:51<5:47:11, 10.90s/it] 50%|█████     | 1927/3837 [5:57:03<5:51:42, 11.05s/it] 50%|█████     | 1928/3837 [5:57:14<5:56:16, 11.20s/it] 50%|█████     | 1929/3837 [5:57:24<5:43:45, 10.81s/it] 50%|█████     | 1930/3837 [5:57:34<5:33:23, 10.49s/it]                                                       {'loss': 3.8387, 'grad_norm': 15.015402793884277, 'learning_rate': 5.196246351516886e-06, 'epoch': 0.5}
+ 50%|█████     | 1930/3837 [5:57:34<5:33:23, 10.49s/it] 50%|█████     | 1931/3837 [5:57:44<5:26:28, 10.28s/it] 50%|█████     | 1932/3837 [5:57:55<5:37:59, 10.65s/it] 50%|█████     | 1933/3837 [5:58:07<5:46:27, 10.92s/it] 50%|█████     | 1934/3837 [5:58:17<5:35:35, 10.58s/it] 50%|█████     | 1935/3837 [5:58:26<5:29:13, 10.39s/it] 50%|█████     | 1936/3837 [5:58:38<5:40:22, 10.74s/it] 50%|█████     | 1937/3837 [5:58:49<5:46:56, 10.96s/it] 51%|█████     | 1938/3837 [5:59:01<5:51:30, 11.11s/it] 51%|█████     | 1939/3837 [5:59:12<5:54:19, 11.20s/it] 51%|█████     | 1940/3837 [5:59:24<5:56:00, 11.26s/it]                                                       {'loss': 3.9072, 'grad_norm': 15.858648300170898, 'learning_rate': 5.154058026756464e-06, 'epoch': 0.51}
+ 51%|█████     | 1940/3837 [5:59:24<5:56:00, 11.26s/it] 51%|█████     | 1941/3837 [5:59:32<5:26:35, 10.33s/it] 51%|█████     | 1942/3837 [5:59:43<5:36:52, 10.67s/it] 51%|█████     | 1943/3837 [5:59:55<5:43:58, 10.90s/it] 51%|█████     | 1944/3837 [6:00:06<5:49:08, 11.07s/it] 51%|█████     | 1945/3837 [6:00:16<5:37:25, 10.70s/it] 51%|█████     | 1946/3837 [6:00:28<5:46:31, 11.00s/it] 51%|█████     | 1947/3837 [6:00:39<5:51:47, 11.17s/it] 51%|█████     | 1948/3837 [6:00:49<5:38:10, 10.74s/it] 51%|█████     | 1949/3837 [6:00:59<5:30:08, 10.49s/it] 51%|█████     | 1950/3837 [6:01:10<5:38:23, 10.76s/it]                                                       {'loss': 3.6977, 'grad_norm': 13.647195816040039, 'learning_rate': 5.111858720483639e-06, 'epoch': 0.51}
+ 51%|█████     | 1950/3837 [6:01:10<5:38:23, 10.76s/it] 51%|█████     | 1951/3837 [6:01:22<5:44:26, 10.96s/it] 51%|█████     | 1952/3837 [6:01:33<5:48:16, 11.09s/it] 51%|█████     | 1953/3837 [6:01:45<5:52:39, 11.23s/it] 51%|█████     | 1954/3837 [6:01:56<5:54:16, 11.29s/it] 51%|█████     | 1955/3837 [6:02:08<5:56:34, 11.37s/it] 51%|█████     | 1956/3837 [6:02:18<5:41:09, 10.88s/it] 51%|█████     | 1957/3837 [6:02:31<6:02:09, 11.56s/it] 51%|█████     | 1958/3837 [6:02:42<6:01:01, 11.53s/it] 51%|█████     | 1959/3837 [6:02:52<5:43:43, 10.98s/it] 51%|█████     | 1960/3837 [6:03:03<5:48:02, 11.13s/it]                                                       {'loss': 3.9188, 'grad_norm': 14.408649444580078, 'learning_rate': 5.069651440735153e-06, 'epoch': 0.51}
+ 51%|█████     | 1960/3837 [6:03:03<5:48:02, 11.13s/it] 51%|█████     | 1961/3837 [6:03:15<5:51:07, 11.23s/it] 51%|█████     | 1962/3837 [6:03:26<5:53:46, 11.32s/it] 51%|█████     | 1963/3837 [6:03:38<5:55:35, 11.38s/it] 51%|█████     | 1964/3837 [6:03:49<5:57:32, 11.45s/it] 51%|█████     | 1965/3837 [6:04:01<5:58:16, 11.48s/it] 51%|█████     | 1966/3837 [6:04:12<5:57:59, 11.48s/it] 51%|█████▏    | 1967/3837 [6:04:22<5:42:57, 11.00s/it] 51%|█████▏    | 1968/3837 [6:04:34<5:47:50, 11.17s/it] 51%|█████▏    | 1969/3837 [6:04:44<5:35:20, 10.77s/it] 51%|█████▏    | 1970/3837 [6:04:54<5:26:12, 10.48s/it]                                                       {'loss': 3.9998, 'grad_norm': 17.214282989501953, 'learning_rate': 5.027439196116116e-06, 'epoch': 0.51}
+ 51%|█████▏    | 1970/3837 [6:04:54<5:26:12, 10.48s/it] 51%|█████▏    | 1971/3837 [6:05:05<5:36:14, 10.81s/it] 51%|█████▏    | 1972/3837 [6:05:17<5:42:45, 11.03s/it] 51%|█████▏    | 1973/3837 [6:05:27<5:33:24, 10.73s/it] 51%|█████▏    | 1974/3837 [6:05:38<5:40:25, 10.96s/it] 51%|█████▏    | 1975/3837 [6:05:50<5:46:13, 11.16s/it] 51%|█████▏    | 1976/3837 [6:06:01<5:49:10, 11.26s/it] 52%|█████▏    | 1977/3837 [6:06:13<5:51:45, 11.35s/it] 52%|█████▏    | 1978/3837 [6:06:26<6:08:19, 11.89s/it] 52%|█████▏    | 1979/3837 [6:06:36<5:48:43, 11.26s/it] 52%|█████▏    | 1980/3837 [6:06:47<5:50:51, 11.34s/it]                                                       {'loss': 4.102, 'grad_norm': 14.95472240447998, 'learning_rate': 4.985224995585539e-06, 'epoch': 0.52}
+ 52%|█████▏    | 1980/3837 [6:06:47<5:50:51, 11.34s/it] 52%|█████▏    | 1981/3837 [6:06:59<5:53:10, 11.42s/it] 52%|█████▏    | 1982/3837 [6:07:11<5:55:59, 11.51s/it] 52%|█████▏    | 1983/3837 [6:07:21<5:40:18, 11.01s/it] 52%|█████▏    | 1984/3837 [6:07:30<5:28:54, 10.65s/it] 52%|█████▏    | 1985/3837 [6:07:40<5:20:56, 10.40s/it] 52%|█████▏    | 1986/3837 [6:07:52<5:30:31, 10.71s/it] 52%|█████▏    | 1987/3837 [6:08:01<5:22:06, 10.45s/it] 52%|█████▏    | 1988/3837 [6:08:11<5:15:37, 10.24s/it] 52%|█████▏    | 1989/3837 [6:08:23<5:27:10, 10.62s/it] 52%|█████▏    | 1990/3837 [6:08:33<5:21:00, 10.43s/it]                                                       {'loss': 3.8382, 'grad_norm': 13.100905418395996, 'learning_rate': 4.94301184824185e-06, 'epoch': 0.52}
+ 52%|█████▏    | 1990/3837 [6:08:33<5:21:00, 10.43s/it] 52%|█████▏    | 1991/3837 [6:08:42<5:15:03, 10.24s/it] 52%|█████▏    | 1992/3837 [6:08:52<5:10:23, 10.09s/it] 52%|█████▏    | 1993/3837 [6:09:04<5:22:57, 10.51s/it] 52%|█████▏    | 1994/3837 [6:09:15<5:32:19, 10.82s/it] 52%|█████▏    | 1995/3837 [6:09:25<5:23:46, 10.55s/it] 52%|█████▏    | 1996/3837 [6:09:37<5:33:33, 10.87s/it] 52%|█████▏    | 1997/3837 [6:09:47<5:23:36, 10.55s/it] 52%|█████▏    | 1998/3837 [6:09:58<5:31:09, 10.80s/it] 52%|█████▏    | 1999/3837 [6:10:08<5:22:03, 10.51s/it] 52%|█████▏    | 2000/3837 [6:10:18<5:16:06, 10.32s/it]                                                       {'loss': 3.9042, 'grad_norm': 16.31537437438965, 'learning_rate': 4.900802763108413e-06, 'epoch': 0.52}
+ 52%|█████▏    | 2000/3837 [6:10:18<5:16:06, 10.32s/it]/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+ 52%|█████▏    | 2001/3837 [6:11:54<18:22:58, 36.05s/it] 52%|█████▏    | 2002/3837 [6:12:07<14:52:55, 29.20s/it] 52%|█████▏    | 2003/3837 [6:12:18<12:09:42, 23.87s/it] 52%|█████▏    | 2004/3837 [6:12:28<10:02:04, 19.71s/it] 52%|█████▏    | 2005/3837 [6:12:40<8:46:42, 17.25s/it]  52%|█████▏    | 2006/3837 [6:12:50<7:39:16, 15.05s/it] 52%|█████▏    | 2007/3837 [6:13:01<7:06:47, 13.99s/it] 52%|█████▏    | 2008/3837 [6:13:11<6:28:11, 12.73s/it] 52%|█████▏    | 2009/3837 [6:13:23<6:16:07, 12.35s/it] 52%|█████▏    | 2010/3837 [6:13:34<6:08:36, 12.11s/it]                                                       {'loss': 3.7303, 'grad_norm': 16.4555721282959, 'learning_rate': 4.858600748919023e-06, 'epoch': 0.52}
+ 52%|█████▏    | 2010/3837 [6:13:34<6:08:36, 12.11s/it] 52%|█████▏    | 2011/3837 [6:13:44<5:48:36, 11.45s/it] 52%|█████▏    | 2012/3837 [6:13:54<5:32:35, 10.93s/it] 52%|█████▏    | 2013/3837 [6:14:05<5:37:10, 11.09s/it] 52%|█████▏    | 2014/3837 [6:14:15<5:25:30, 10.71s/it] 53%|█████▎    | 2015/3837 [6:14:27<5:31:57, 10.93s/it] 53%|█████▎    | 2016/3837 [6:14:38<5:38:15, 11.15s/it] 53%|█████▎    | 2017/3837 [6:14:48<5:26:16, 10.76s/it] 53%|█████▎    | 2018/3837 [6:15:01<5:48:28, 11.49s/it] 53%|█████▎    | 2019/3837 [6:15:13<5:49:27, 11.53s/it] 53%|█████▎    | 2020/3837 [6:15:24<5:47:54, 11.49s/it]                                                       {'loss': 3.9703, 'grad_norm': 17.20844078063965, 'learning_rate': 4.816408813903454e-06, 'epoch': 0.53}
+ 53%|█████▎    | 2020/3837 [6:15:24<5:47:54, 11.49s/it] 53%|█████▎    | 2021/3837 [6:15:36<5:46:24, 11.45s/it] 53%|█████▎    | 2022/3837 [6:15:45<5:31:56, 10.97s/it] 53%|█████▎    | 2023/3837 [6:15:57<5:36:57, 11.15s/it] 53%|█████▎    | 2024/3837 [6:16:07<5:25:02, 10.76s/it] 53%|█████▎    | 2025/3837 [6:16:17<5:15:42, 10.45s/it] 53%|█████▎    | 2026/3837 [6:16:28<5:24:36, 10.75s/it] 53%|█████▎    | 2027/3837 [6:16:39<5:30:28, 10.96s/it] 53%|█████▎    | 2028/3837 [6:16:50<5:23:22, 10.73s/it] 53%|█████▎    | 2029/3837 [6:17:01<5:28:21, 10.90s/it] 53%|█████▎    | 2030/3837 [6:17:12<5:32:51, 11.05s/it]                                                       {'loss': 3.8214, 'grad_norm': 13.8233642578125, 'learning_rate': 4.7742299655730095e-06, 'epoch': 0.53}
+ 53%|█████▎    | 2030/3837 [6:17:12<5:32:51, 11.05s/it] 53%|█████▎    | 2031/3837 [6:17:24<5:36:07, 11.17s/it] 53%|█████▎    | 2032/3837 [6:17:35<5:37:41, 11.23s/it] 53%|█████▎    | 2033/3837 [6:17:47<5:39:31, 11.29s/it] 53%|█████▎    | 2034/3837 [6:17:56<5:25:46, 10.84s/it] 53%|█████▎    | 2035/3837 [6:18:08<5:30:49, 11.02s/it] 53%|█████▎    | 2036/3837 [6:18:18<5:21:09, 10.70s/it] 53%|█████▎    | 2037/3837 [6:18:29<5:27:01, 10.90s/it] 53%|█████▎    | 2038/3837 [6:18:42<5:47:01, 11.57s/it] 53%|█████▎    | 2039/3837 [6:18:54<5:46:43, 11.57s/it] 53%|█████▎    | 2040/3837 [6:19:05<5:45:06, 11.52s/it]                                                       {'loss': 4.1141, 'grad_norm': 15.877490997314453, 'learning_rate': 4.7320672105061626e-06, 'epoch': 0.53}
+ 53%|█████▎    | 2040/3837 [6:19:05<5:45:06, 11.52s/it] 53%|█████▎    | 2041/3837 [6:19:17<5:44:51, 11.52s/it] 53%|█████▎    | 2042/3837 [6:19:28<5:44:40, 11.52s/it] 53%|█████▎    | 2043/3837 [6:19:40<5:43:04, 11.47s/it] 53%|█████▎    | 2044/3837 [6:19:51<5:42:33, 11.46s/it] 53%|█████▎    | 2045/3837 [6:20:03<5:42:32, 11.47s/it] 53%|█████▎    | 2046/3837 [6:20:12<5:27:42, 10.98s/it] 53%|█████▎    | 2047/3837 [6:20:24<5:32:34, 11.15s/it] 53%|█████▎    | 2048/3837 [6:20:35<5:35:24, 11.25s/it] 53%|█████▎    | 2049/3837 [6:20:45<5:22:27, 10.82s/it] 53%|█████▎    | 2050/3837 [6:20:57<5:27:16, 10.99s/it]                                                       {'loss': 3.9246, 'grad_norm': 14.362630844116211, 'learning_rate': 4.689923554134224e-06, 'epoch': 0.53}
+ 53%|█████▎    | 2050/3837 [6:20:57<5:27:16, 10.99s/it] 53%|█████▎    | 2051/3837 [6:21:08<5:32:09, 11.16s/it] 53%|█████▎    | 2052/3837 [6:21:20<5:35:17, 11.27s/it] 54%|█████▎    | 2053/3837 [6:21:31<5:37:37, 11.35s/it] 54%|█████▎    | 2054/3837 [6:21:43<5:38:32, 11.39s/it] 54%|█████▎    | 2055/3837 [6:21:54<5:39:07, 11.42s/it] 54%|█████▎    | 2056/3837 [6:22:06<5:39:54, 11.45s/it] 54%|█████▎    | 2057/3837 [6:22:17<5:39:45, 11.45s/it] 54%|█████▎    | 2058/3837 [6:22:28<5:36:59, 11.37s/it] 54%|█████▎    | 2059/3837 [6:22:38<5:22:52, 10.90s/it] 54%|█████▎    | 2060/3837 [6:22:50<5:28:23, 11.09s/it]                                                       {'loss': 3.867, 'grad_norm': 12.109440803527832, 'learning_rate': 4.6478020005271216e-06, 'epoch': 0.54}
+ 54%|█████▎    | 2060/3837 [6:22:50<5:28:23, 11.09s/it] 54%|█████▎    | 2061/3837 [6:23:01<5:31:00, 11.18s/it] 54%|█████▎    | 2062/3837 [6:23:13<5:33:11, 11.26s/it] 54%|█████▍    | 2063/3837 [6:23:26<5:48:58, 11.80s/it] 54%|█████▍    | 2064/3837 [6:23:36<5:31:51, 11.23s/it] 54%|█████▍    | 2065/3837 [6:23:47<5:30:38, 11.20s/it] 54%|█████▍    | 2066/3837 [6:23:58<5:33:50, 11.31s/it] 54%|█████▍    | 2067/3837 [6:24:08<5:20:19, 10.86s/it] 54%|█████▍    | 2068/3837 [6:24:19<5:24:37, 11.01s/it] 54%|█████▍    | 2069/3837 [6:24:31<5:28:07, 11.14s/it] 54%|█████▍    | 2070/3837 [6:24:42<5:31:10, 11.25s/it]                                                       {'loss': 3.8407, 'grad_norm': 12.930885314941406, 'learning_rate': 4.605705552179264e-06, 'epoch': 0.54}
+ 54%|█████▍    | 2070/3837 [6:24:42<5:31:10, 11.25s/it] 54%|█████▍    | 2071/3837 [6:24:54<5:33:27, 11.33s/it] 54%|█████▍    | 2072/3837 [6:25:05<5:34:54, 11.39s/it] 54%|█████▍    | 2073/3837 [6:25:15<5:21:29, 10.94s/it] 54%|█████▍    | 2074/3837 [6:25:27<5:25:29, 11.08s/it] 54%|█████▍    | 2075/3837 [6:25:38<5:29:15, 11.21s/it] 54%|█████▍    | 2076/3837 [6:25:50<5:32:02, 11.31s/it] 54%|█████▍    | 2077/3837 [6:26:00<5:19:47, 10.90s/it] 54%|█████▍    | 2078/3837 [6:26:10<5:11:04, 10.61s/it] 54%|█████▍    | 2079/3837 [6:26:21<5:17:53, 10.85s/it] 54%|█████▍    | 2080/3837 [6:26:33<5:24:28, 11.08s/it]                                                       {'loss': 3.7308, 'grad_norm': 16.971628189086914, 'learning_rate': 4.563637209795509e-06, 'epoch': 0.54}
+ 54%|█████▍    | 2080/3837 [6:26:33<5:24:28, 11.08s/it] 54%|█████▍    | 2081/3837 [6:26:44<5:28:32, 11.23s/it] 54%|█████▍    | 2082/3837 [6:26:56<5:30:48, 11.31s/it] 54%|█████▍    | 2083/3837 [6:27:06<5:17:30, 10.86s/it] 54%|█████▍    | 2084/3837 [6:27:16<5:17:06, 10.85s/it] 54%|█████▍    | 2085/3837 [6:27:28<5:22:01, 11.03s/it] 54%|█████▍    | 2086/3837 [6:27:39<5:25:35, 11.16s/it] 54%|█████▍    | 2087/3837 [6:27:51<5:28:53, 11.28s/it] 54%|█████▍    | 2088/3837 [6:28:02<5:30:25, 11.34s/it] 54%|█████▍    | 2089/3837 [6:28:14<5:31:10, 11.37s/it] 54%|█████▍    | 2090/3837 [6:28:24<5:17:42, 10.91s/it]                                                       {'loss': 3.8111, 'grad_norm': 14.160455703735352, 'learning_rate': 4.521599972077278e-06, 'epoch': 0.54}
+ 54%|█████▍    | 2090/3837 [6:28:24<5:17:42, 10.91s/it] 54%|█████▍    | 2091/3837 [6:28:35<5:22:30, 11.08s/it] 55%|█████▍    | 2092/3837 [6:28:45<5:11:47, 10.72s/it] 55%|█████▍    | 2093/3837 [6:28:56<5:17:31, 10.92s/it] 55%|█████▍    | 2094/3837 [6:29:08<5:22:03, 11.09s/it] 55%|█████▍    | 2095/3837 [6:29:18<5:10:28, 10.69s/it] 55%|█████▍    | 2096/3837 [6:29:29<5:17:19, 10.94s/it] 55%|█████▍    | 2097/3837 [6:29:41<5:22:37, 11.13s/it] 55%|█████▍    | 2098/3837 [6:29:52<5:25:39, 11.24s/it] 55%|█████▍    | 2099/3837 [6:30:04<5:27:22, 11.30s/it] 55%|█████▍    | 2100/3837 [6:30:14<5:16:08, 10.92s/it]                                                       {'loss': 3.6568, 'grad_norm': 12.518649101257324, 'learning_rate': 4.479596835508798e-06, 'epoch': 0.55}
+ 55%|█████▍    | 2100/3837 [6:30:14<5:16:08, 10.92s/it] 55%|█████▍    | 2101/3837 [6:30:25<5:19:48, 11.05s/it] 55%|█████▍    | 2102/3837 [6:30:35<5:09:29, 10.70s/it] 55%|█████▍    | 2103/3837 [6:30:45<5:01:18, 10.43s/it] 55%|█████▍    | 2104/3837 [6:30:56<5:09:34, 10.72s/it] 55%|█████▍    | 2105/3837 [6:31:09<5:29:49, 11.43s/it] 55%|█████▍    | 2106/3837 [6:31:21<5:30:00, 11.44s/it] 55%|█████▍    | 2107/3837 [6:31:30<5:15:59, 10.96s/it] 55%|█████▍    | 2108/3837 [6:31:42<5:19:33, 11.09s/it] 55%|█████▍    | 2109/3837 [6:31:53<5:22:38, 11.20s/it] 55%|█████▍    | 2110/3837 [6:32:03<5:11:21, 10.82s/it]                                                       {'loss': 3.8166, 'grad_norm': 13.215614318847656, 'learning_rate': 4.437630794143513e-06, 'epoch': 0.55}
+ 55%|█████▍    | 2110/3837 [6:32:03<5:11:21, 10.82s/it] 55%|█████▌    | 2111/3837 [6:32:15<5:16:17, 10.99s/it] 55%|█████▌    | 2112/3837 [6:32:26<5:20:50, 11.16s/it] 55%|█████▌    | 2113/3837 [6:32:38<5:24:27, 11.29s/it] 55%|█████▌    | 2114/3837 [6:32:48<5:11:51, 10.86s/it] 55%|█████▌    | 2115/3837 [6:32:57<5:02:35, 10.54s/it] 55%|█████▌    | 2116/3837 [6:33:07<4:55:35, 10.31s/it] 55%|█████▌    | 2117/3837 [6:33:19<5:05:32, 10.66s/it] 55%|█████▌    | 2118/3837 [6:33:28<4:57:11, 10.37s/it] 55%|█████▌    | 2119/3837 [6:33:40<5:05:51, 10.68s/it] 55%|█████▌    | 2120/3837 [6:33:50<4:58:00, 10.41s/it]                                                       {'loss': 3.8354, 'grad_norm': 14.059877395629883, 'learning_rate': 4.395704839390657e-06, 'epoch': 0.55}
+ 55%|█████▌    | 2120/3837 [6:33:50<4:58:00, 10.41s/it] 55%|█████▌    | 2121/3837 [6:34:01<5:06:44, 10.73s/it] 55%|█████▌    | 2122/3837 [6:34:13<5:12:51, 10.95s/it] 55%|█████▌    | 2123/3837 [6:34:24<5:17:26, 11.11s/it] 55%|█████▌    | 2124/3837 [6:34:34<5:06:00, 10.72s/it] 55%|█████▌    | 2125/3837 [6:34:47<5:26:36, 11.45s/it] 55%|█████▌    | 2126/3837 [6:34:58<5:21:33, 11.28s/it] 55%|█████▌    | 2127/3837 [6:35:08<5:09:43, 10.87s/it] 55%|█████▌    | 2128/3837 [6:35:18<5:00:31, 10.55s/it] 55%|█████▌    | 2129/3837 [6:35:28<4:58:46, 10.50s/it] 56%|█████▌    | 2130/3837 [6:35:41<5:21:06, 11.29s/it]                                                       {'loss': 3.7703, 'grad_norm': 15.828983306884766, 'learning_rate': 4.353821959802024e-06, 'epoch': 0.56}
+ 56%|█████▌    | 2130/3837 [6:35:41<5:21:06, 11.29s/it] 56%|█████▌    | 2131/3837 [6:35:53<5:22:33, 11.34s/it] 56%|█████▌    | 2132/3837 [6:36:04<5:23:45, 11.39s/it] 56%|█████▌    | 2133/3837 [6:36:14<5:09:47, 10.91s/it] 56%|█████▌    | 2134/3837 [6:36:25<5:13:44, 11.05s/it] 56%|█████▌    | 2135/3837 [6:36:37<5:16:34, 11.16s/it] 56%|█████▌    | 2136/3837 [6:36:46<5:04:44, 10.75s/it] 56%|█████▌    | 2137/3837 [6:36:56<4:56:28, 10.46s/it] 56%|█████▌    | 2138/3837 [6:37:09<5:18:51, 11.26s/it] 56%|█████▌    | 2139/3837 [6:37:19<5:06:20, 10.82s/it] 56%|█████▌    | 2140/3837 [6:37:31<5:11:51, 11.03s/it]                                                       {'loss': 3.7362, 'grad_norm': 17.402969360351562, 'learning_rate': 4.311985140858935e-06, 'epoch': 0.56}
+ 56%|█████▌    | 2140/3837 [6:37:31<5:11:51, 11.03s/it] 56%|█████▌    | 2141/3837 [6:37:42<5:15:58, 11.18s/it] 56%|█████▌    | 2142/3837 [6:37:54<5:18:46, 11.28s/it] 56%|█████▌    | 2143/3837 [6:38:05<5:20:18, 11.34s/it] 56%|█████▌    | 2144/3837 [6:38:15<5:08:32, 10.93s/it] 56%|█████▌    | 2145/3837 [6:38:27<5:12:53, 11.10s/it] 56%|█████▌    | 2146/3837 [6:38:40<5:30:08, 11.71s/it] 56%|█████▌    | 2147/3837 [6:38:51<5:29:14, 11.69s/it] 56%|█████▌    | 2148/3837 [6:39:03<5:27:57, 11.65s/it] 56%|█████▌    | 2149/3837 [6:39:14<5:26:24, 11.60s/it] 56%|█████▌    | 2150/3837 [6:39:26<5:25:12, 11.57s/it]                                                       {'loss': 3.9624, 'grad_norm': 17.005844116210938, 'learning_rate': 4.270197364759439e-06, 'epoch': 0.56}
+ 56%|█████▌    | 2150/3837 [6:39:26<5:25:12, 11.57s/it] 56%|█████▌    | 2151/3837 [6:39:37<5:24:13, 11.54s/it] 56%|█████▌    | 2152/3837 [6:39:47<5:09:49, 11.03s/it] 56%|█████▌    | 2153/3837 [6:39:59<5:14:39, 11.21s/it] 56%|█████▌    | 2154/3837 [6:40:10<5:16:05, 11.27s/it] 56%|█████▌    | 2155/3837 [6:40:20<5:03:39, 10.83s/it] 56%|█████▌    | 2156/3837 [6:40:32<5:10:01, 11.07s/it] 56%|█████▌    | 2157/3837 [6:40:43<5:13:33, 11.20s/it] 56%|█████▌    | 2158/3837 [6:40:55<5:15:18, 11.27s/it] 56%|█████▋    | 2159/3837 [6:41:06<5:18:00, 11.37s/it] 56%|█████▋    | 2160/3837 [6:41:18<5:19:42, 11.44s/it]                                                       {'loss': 4.049, 'grad_norm': 14.91238784790039, 'learning_rate': 4.228461610205722e-06, 'epoch': 0.56}
+ 56%|█████▋    | 2160/3837 [6:41:18<5:19:42, 11.44s/it] 56%|█████▋    | 2161/3837 [6:41:28<5:06:12, 10.96s/it] 56%|█████▋    | 2162/3837 [6:41:39<5:09:48, 11.10s/it] 56%|█████▋    | 2163/3837 [6:41:51<5:12:45, 11.21s/it] 56%|█████▋    | 2164/3837 [6:42:02<5:14:57, 11.30s/it] 56%|█████▋    | 2165/3837 [6:42:12<5:02:03, 10.84s/it] 56%|█████▋    | 2166/3837 [6:42:23<5:06:52, 11.02s/it] 56%|█████▋    | 2167/3837 [6:42:35<5:10:19, 11.15s/it] 57%|█████▋    | 2168/3837 [6:42:46<5:13:18, 11.26s/it] 57%|█████▋    | 2169/3837 [6:42:58<5:15:09, 11.34s/it] 57%|█████▋    | 2170/3837 [6:43:09<5:16:16, 11.38s/it]                                                       {'loss': 3.7585, 'grad_norm': 14.350924491882324, 'learning_rate': 4.186780852191795e-06, 'epoch': 0.57}
+ 57%|█████▋    | 2170/3837 [6:43:09<5:16:16, 11.38s/it] 57%|█████▋    | 2171/3837 [6:43:19<5:02:15, 10.89s/it] 57%|█████▋    | 2172/3837 [6:43:31<5:08:30, 11.12s/it] 57%|█████▋    | 2173/3837 [6:43:42<5:12:20, 11.26s/it] 57%|█████▋    | 2174/3837 [6:43:54<5:14:24, 11.34s/it] 57%|█████▋    | 2175/3837 [6:44:06<5:18:32, 11.50s/it] 57%|█████▋    | 2176/3837 [6:44:17<5:19:13, 11.53s/it] 57%|█████▋    | 2177/3837 [6:44:29<5:18:34, 11.51s/it] 57%|█████▋    | 2178/3837 [6:44:40<5:18:34, 11.52s/it] 57%|█████▋    | 2179/3837 [6:44:52<5:18:32, 11.53s/it] 57%|█████▋    | 2180/3837 [6:45:03<5:18:15, 11.52s/it]                                                       {'loss': 3.7662, 'grad_norm': 11.497078895568848, 'learning_rate': 4.145158061791416e-06, 'epoch': 0.57}
+ 57%|█████▋    | 2180/3837 [6:45:03<5:18:15, 11.52s/it] 57%|█████▋    | 2181/3837 [6:45:13<5:03:59, 11.01s/it] 57%|█████▋    | 2182/3837 [6:45:25<5:08:30, 11.18s/it] 57%|█████▋    | 2183/3837 [6:45:36<5:11:04, 11.28s/it] 57%|█████▋    | 2184/3837 [6:45:48<5:12:57, 11.36s/it] 57%|█████▋    | 2185/3837 [6:45:59<5:14:59, 11.44s/it] 57%|█████▋    | 2186/3837 [6:46:11<5:15:31, 11.47s/it] 57%|█████▋    | 2187/3837 [6:46:23<5:16:42, 11.52s/it] 57%|█████▋    | 2188/3837 [6:46:34<5:17:14, 11.54s/it] 57%|█████▋    | 2189/3837 [6:46:44<5:05:54, 11.14s/it] 57%|█████▋    | 2190/3837 [6:46:54<4:54:48, 10.74s/it]                                                       {'loss': 3.7275, 'grad_norm': 15.729626655578613, 'learning_rate': 4.103596205946323e-06, 'epoch': 0.57}
+ 57%|█████▋    | 2190/3837 [6:46:54<4:54:48, 10.74s/it] 57%|█████▋    | 2191/3837 [6:47:06<5:01:28, 10.99s/it] 57%|█████▋    | 2192/3837 [6:47:19<5:18:52, 11.63s/it] 57%|█████▋    | 2193/3837 [6:47:31<5:18:16, 11.62s/it] 57%|█████▋    | 2194/3837 [6:47:40<5:02:51, 11.06s/it] 57%|█████▋    | 2195/3837 [6:47:52<5:05:34, 11.17s/it] 57%|█████▋    | 2196/3837 [6:48:02<4:54:41, 10.77s/it] 57%|█████▋    | 2197/3837 [6:48:11<4:46:39, 10.49s/it] 57%|█████▋    | 2198/3837 [6:48:21<4:40:43, 10.28s/it] 57%|█████▋    | 2199/3837 [6:48:33<4:50:51, 10.65s/it] 57%|█████▋    | 2200/3837 [6:48:42<4:43:47, 10.40s/it]                                                       {'loss': 3.7067, 'grad_norm': 11.974518775939941, 'learning_rate': 4.062098247254731e-06, 'epoch': 0.57}
+ 57%|█████▋    | 2200/3837 [6:48:42<4:43:47, 10.40s/it] 57%|█████▋    | 2201/3837 [6:48:56<5:06:09, 11.23s/it] 57%|█████▋    | 2202/3837 [6:49:07<5:07:19, 11.28s/it] 57%|█████▋    | 2203/3837 [6:49:17<4:54:21, 10.81s/it] 57%|█████▋    | 2204/3837 [6:49:28<5:00:19, 11.03s/it] 57%|█████▋    | 2205/3837 [6:49:40<5:03:40, 11.16s/it] 57%|█████▋    | 2206/3837 [6:49:50<4:53:41, 10.80s/it] 58%|█████▊    | 2207/3837 [6:50:00<4:44:58, 10.49s/it] 58%|█████▊    | 2208/3837 [6:50:11<4:53:06, 10.80s/it] 58%|█████▊    | 2209/3837 [6:50:22<4:57:49, 10.98s/it] 58%|█████▊    | 2210/3837 [6:50:32<4:49:23, 10.67s/it]                                                       {'loss': 3.7751, 'grad_norm': 14.49791431427002, 'learning_rate': 4.020667143760165e-06, 'epoch': 0.58}
+ 58%|█████▊    | 2210/3837 [6:50:32<4:49:23, 10.67s/it] 58%|█████▊    | 2211/3837 [6:50:44<4:55:30, 10.90s/it] 58%|█████▊    | 2212/3837 [6:50:57<5:12:55, 11.55s/it] 58%|█████▊    | 2213/3837 [6:51:08<5:12:59, 11.56s/it] 58%|█████▊    | 2214/3837 [6:51:20<5:12:32, 11.55s/it] 58%|█████▊    | 2215/3837 [6:51:31<5:11:23, 11.52s/it] 58%|█████▊    | 2216/3837 [6:51:43<5:11:38, 11.54s/it] 58%|█████▊    | 2217/3837 [6:51:55<5:12:03, 11.56s/it] 58%|█████▊    | 2218/3837 [6:52:06<5:10:46, 11.52s/it] 58%|█████▊    | 2219/3837 [6:52:17<5:09:46, 11.49s/it] 58%|█████▊    | 2220/3837 [6:52:29<5:09:22, 11.48s/it]                                                       {'loss': 3.9426, 'grad_norm': 15.29405689239502, 'learning_rate': 3.979305848740596e-06, 'epoch': 0.58}
+ 58%|█████▊    | 2220/3837 [6:52:29<5:09:22, 11.48s/it] 58%|█████▊    | 2221/3837 [6:52:40<5:08:51, 11.47s/it] 58%|█████▊    | 2222/3837 [6:52:52<5:08:22, 11.46s/it] 58%|█████▊    | 2223/3837 [6:53:03<5:09:38, 11.51s/it] 58%|█████▊    | 2224/3837 [6:53:13<4:56:45, 11.04s/it] 58%|█████▊    | 2225/3837 [6:53:25<5:00:32, 11.19s/it] 58%|█████▊    | 2226/3837 [6:53:36<5:03:06, 11.29s/it] 58%|█████▊    | 2227/3837 [6:53:48<5:04:11, 11.34s/it] 58%|█████▊    | 2228/3837 [6:53:58<4:51:43, 10.88s/it] 58%|█████▊    | 2229/3837 [6:54:09<4:56:03, 11.05s/it] 58%|█████▊    | 2230/3837 [6:54:21<4:59:37, 11.19s/it]                                                       {'loss': 3.6313, 'grad_norm': 12.552131652832031, 'learning_rate': 3.938017310497932e-06, 'epoch': 0.58}
+ 58%|█████▊    | 2230/3837 [6:54:21<4:59:37, 11.19s/it] 58%|█████▊    | 2231/3837 [6:54:32<5:00:53, 11.24s/it] 58%|█████▊    | 2232/3837 [6:54:42<4:50:00, 10.84s/it] 58%|█████▊    | 2233/3837 [6:54:53<4:55:28, 11.05s/it] 58%|█████▊    | 2234/3837 [6:55:05<4:58:28, 11.17s/it] 58%|█████▊    | 2235/3837 [6:55:16<5:00:08, 11.24s/it] 58%|█████▊    | 2236/3837 [6:55:28<5:02:02, 11.32s/it] 58%|█████▊    | 2237/3837 [6:55:39<5:03:45, 11.39s/it] 58%|█████▊    | 2238/3837 [6:55:49<4:51:46, 10.95s/it] 58%|█████▊    | 2239/3837 [6:55:59<4:42:52, 10.62s/it] 58%|█████▊    | 2240/3837 [6:56:11<4:50:08, 10.90s/it]                                                       {'loss': 3.8203, 'grad_norm': 17.384660720825195, 'learning_rate': 3.896804472147861e-06, 'epoch': 0.58}
+ 58%|█████▊    | 2240/3837 [6:56:11<4:50:08, 10.90s/it] 58%|█████▊    | 2241/3837 [6:56:22<4:54:26, 11.07s/it] 58%|█████▊    | 2242/3837 [6:56:32<4:45:41, 10.75s/it] 58%|█████▊    | 2243/3837 [6:56:44<4:52:11, 11.00s/it] 58%|█████▊    | 2244/3837 [6:56:55<4:55:07, 11.12s/it] 59%|█████▊    | 2245/3837 [6:57:07<4:58:32, 11.25s/it] 59%|█████▊    | 2246/3837 [6:57:18<5:01:16, 11.36s/it] 59%|█████▊    | 2247/3837 [6:57:28<4:49:16, 10.92s/it] 59%|█████▊    | 2248/3837 [6:57:40<4:53:04, 11.07s/it] 59%|█████▊    | 2249/3837 [6:57:51<4:55:43, 11.17s/it] 59%|█████▊    | 2250/3837 [6:58:02<4:57:23, 11.24s/it]                                                       {'loss': 3.6645, 'grad_norm': 14.073604583740234, 'learning_rate': 3.85567027141005e-06, 'epoch': 0.59}
+ 59%|█████▊    | 2250/3837 [6:58:02<4:57:23, 11.24s/it] 59%|█████▊    | 2251/3837 [6:58:14<5:00:42, 11.38s/it] 59%|█████▊    | 2252/3837 [6:58:24<4:48:10, 10.91s/it] 59%|█████▊    | 2253/3837 [6:58:35<4:52:50, 11.09s/it] 59%|█████▊    | 2254/3837 [6:58:47<4:55:12, 11.19s/it] 59%|█████▉    | 2255/3837 [6:58:58<4:56:48, 11.26s/it] 59%|█████▉    | 2256/3837 [6:59:08<4:44:29, 10.80s/it] 59%|█████▉    | 2257/3837 [6:59:18<4:36:54, 10.52s/it] 59%|█████▉    | 2258/3837 [6:59:31<4:57:34, 11.31s/it] 59%|█████▉    | 2259/3837 [6:59:43<4:59:00, 11.37s/it] 59%|█████▉    | 2260/3837 [6:59:54<4:59:53, 11.41s/it]                                                       {'loss': 3.8115, 'grad_norm': 13.519288063049316, 'learning_rate': 3.814617640398753e-06, 'epoch': 0.59}
+ 59%|█████▉    | 2260/3837 [6:59:54<4:59:53, 11.41s/it] 59%|█████▉    | 2261/3837 [7:00:06<5:00:58, 11.46s/it] 59%|█████▉    | 2262/3837 [7:00:16<4:48:37, 11.00s/it] 59%|█████▉    | 2263/3837 [7:00:27<4:52:06, 11.14s/it] 59%|█████▉    | 2264/3837 [7:00:37<4:42:06, 10.76s/it] 59%|█████▉    | 2265/3837 [7:00:47<4:34:48, 10.49s/it] 59%|█████▉    | 2266/3837 [7:00:57<4:30:05, 10.32s/it] 59%|█████▉    | 2267/3837 [7:01:08<4:39:18, 10.67s/it] 59%|█████▉    | 2268/3837 [7:01:20<4:45:18, 10.91s/it] 59%|█████▉    | 2269/3837 [7:01:31<4:49:58, 11.10s/it] 59%|█████▉    | 2270/3837 [7:01:43<4:53:39, 11.24s/it]                                                       {'loss': 3.6747, 'grad_norm': 12.820542335510254, 'learning_rate': 3.773649505413789e-06, 'epoch': 0.59}
+ 59%|█████▉    | 2270/3837 [7:01:43<4:53:39, 11.24s/it] 59%|█████▉    | 2271/3837 [7:01:54<4:56:10, 11.35s/it] 59%|█████▉    | 2272/3837 [7:02:08<5:10:37, 11.91s/it] 59%|█████▉    | 2273/3837 [7:02:19<5:07:31, 11.80s/it] 59%|█████▉    | 2274/3837 [7:02:31<5:05:00, 11.71s/it] 59%|█████▉    | 2275/3837 [7:02:42<5:03:10, 11.65s/it] 59%|█████▉    | 2276/3837 [7:02:54<5:02:40, 11.63s/it] 59%|█████▉    | 2277/3837 [7:03:04<4:48:36, 11.10s/it] 59%|█████▉    | 2278/3837 [7:03:13<4:38:53, 10.73s/it] 59%|█████▉    | 2279/3837 [7:03:23<4:31:17, 10.45s/it] 59%|█████▉    | 2280/3837 [7:03:35<4:40:44, 10.82s/it]                                                       {'loss': 3.5499, 'grad_norm': 17.818037033081055, 'learning_rate': 3.7327687867319717e-06, 'epoch': 0.59}
+ 59%|█████▉    | 2280/3837 [7:03:35<4:40:44, 10.82s/it] 59%|█████▉    | 2281/3837 [7:03:46<4:44:39, 10.98s/it] 59%|█████▉    | 2282/3837 [7:03:56<4:36:45, 10.68s/it] 59%|█████▉    | 2283/3837 [7:04:08<4:43:19, 10.94s/it] 60%|█████▉    | 2284/3837 [7:04:19<4:47:09, 11.09s/it] 60%|█████▉    | 2285/3837 [7:04:31<4:49:18, 11.18s/it] 60%|█████▉    | 2286/3837 [7:04:42<4:51:55, 11.29s/it] 60%|█████▉    | 2287/3837 [7:04:52<4:40:17, 10.85s/it] 60%|█████▉    | 2288/3837 [7:05:04<4:45:11, 11.05s/it] 60%|█████▉    | 2289/3837 [7:05:15<4:48:09, 11.17s/it] 60%|█████▉    | 2290/3837 [7:05:26<4:49:39, 11.23s/it]                                                       {'loss': 3.7834, 'grad_norm': 16.579925537109375, 'learning_rate': 3.691978398398923e-06, 'epoch': 0.6}
+ 60%|█████▉    | 2290/3837 [7:05:26<4:49:39, 11.23s/it] 60%|█████▉    | 2291/3837 [7:05:39<5:04:16, 11.81s/it] 60%|█████▉    | 2292/3837 [7:05:51<5:00:41, 11.68s/it] 60%|█████▉    | 2293/3837 [7:06:04<5:11:21, 12.10s/it] 60%|█████▉    | 2294/3837 [7:06:14<4:52:55, 11.39s/it] 60%|█████▉    | 2295/3837 [7:06:25<4:54:26, 11.46s/it] 60%|█████▉    | 2296/3837 [7:06:37<4:54:46, 11.48s/it] 60%|█████▉    | 2297/3837 [7:06:48<4:54:34, 11.48s/it] 60%|█████▉    | 2298/3837 [7:07:00<4:55:25, 11.52s/it] 60%|█████▉    | 2299/3837 [7:07:11<4:54:35, 11.49s/it] 60%|█████▉    | 2300/3837 [7:07:23<4:54:17, 11.49s/it]                                                       {'loss': 3.9243, 'grad_norm': 16.559738159179688, 'learning_rate': 3.651281248021379e-06, 'epoch': 0.6}
+ 60%|█████▉    | 2300/3837 [7:07:23<4:54:17, 11.49s/it] 60%|█████▉    | 2301/3837 [7:07:34<4:54:22, 11.50s/it] 60%|█████▉    | 2302/3837 [7:07:46<4:55:18, 11.54s/it] 60%|██████    | 2303/3837 [7:07:57<4:54:23, 11.51s/it] 60%|██████    | 2304/3837 [7:08:09<4:53:30, 11.49s/it] 60%|██████    | 2305/3837 [7:08:20<4:52:49, 11.47s/it] 60%|██████    | 2306/3837 [7:08:32<4:53:09, 11.49s/it] 60%|██████    | 2307/3837 [7:08:43<4:52:47, 11.48s/it] 60%|██████    | 2308/3837 [7:08:55<4:52:10, 11.47s/it] 60%|██████    | 2309/3837 [7:09:06<4:52:01, 11.47s/it] 60%|██████    | 2310/3837 [7:09:18<4:52:45, 11.50s/it]                                                       {'loss': 3.7475, 'grad_norm': 12.809834480285645, 'learning_rate': 3.610680236559909e-06, 'epoch': 0.6}
+ 60%|██████    | 2310/3837 [7:09:18<4:52:45, 11.50s/it] 60%|██████    | 2311/3837 [7:09:29<4:52:37, 11.51s/it] 60%|██████    | 2312/3837 [7:09:39<4:40:11, 11.02s/it] 60%|██████    | 2313/3837 [7:09:51<4:43:04, 11.14s/it] 60%|██████    | 2314/3837 [7:10:02<4:45:09, 11.23s/it] 60%|██████    | 2315/3837 [7:10:13<4:46:14, 11.28s/it] 60%|██████    | 2316/3837 [7:10:25<4:47:11, 11.33s/it] 60%|██████    | 2317/3837 [7:10:36<4:47:34, 11.35s/it] 60%|██████    | 2318/3837 [7:10:48<4:49:52, 11.45s/it] 60%|██████    | 2319/3837 [7:10:58<4:39:04, 11.03s/it] 60%|██████    | 2320/3837 [7:11:09<4:41:32, 11.14s/it]                                                       {'loss': 3.6457, 'grad_norm': 13.733206748962402, 'learning_rate': 3.5701782581221488e-06, 'epoch': 0.6}
+ 60%|██████    | 2320/3837 [7:11:09<4:41:32, 11.14s/it] 60%|██████    | 2321/3837 [7:11:21<4:44:21, 11.25s/it] 61%|██████    | 2322/3837 [7:11:32<4:44:37, 11.27s/it] 61%|██████    | 2323/3837 [7:11:44<4:46:22, 11.35s/it] 61%|██████    | 2324/3837 [7:11:53<4:33:48, 10.86s/it] 61%|██████    | 2325/3837 [7:12:05<4:38:16, 11.04s/it] 61%|██████    | 2326/3837 [7:12:16<4:40:56, 11.16s/it] 61%|██████    | 2327/3837 [7:12:26<4:30:03, 10.73s/it] 61%|██████    | 2328/3837 [7:12:36<4:22:41, 10.44s/it] 61%|██████    | 2329/3837 [7:12:47<4:29:57, 10.74s/it] 61%|██████    | 2330/3837 [7:12:57<4:22:41, 10.46s/it]                                                       {'loss': 3.7017, 'grad_norm': 13.553963661193848, 'learning_rate': 3.529778199756487e-06, 'epoch': 0.61}
+ 61%|██████    | 2330/3837 [7:12:57<4:22:41, 10.46s/it] 61%|██████    | 2331/3837 [7:13:07<4:17:53, 10.27s/it] 61%|██████    | 2332/3837 [7:13:18<4:26:40, 10.63s/it] 61%|██████    | 2333/3837 [7:13:32<4:45:04, 11.37s/it] 61%|██████    | 2334/3837 [7:13:43<4:45:32, 11.40s/it] 61%|██████    | 2335/3837 [7:13:53<4:34:50, 10.98s/it] 61%|██████    | 2336/3837 [7:14:04<4:37:41, 11.10s/it] 61%|██████    | 2337/3837 [7:14:14<4:27:49, 10.71s/it] 61%|██████    | 2338/3837 [7:14:26<4:33:02, 10.93s/it] 61%|██████    | 2339/3837 [7:14:37<4:36:04, 11.06s/it] 61%|██████    | 2340/3837 [7:14:47<4:26:42, 10.69s/it]                                                       {'loss': 3.8158, 'grad_norm': 16.884859085083008, 'learning_rate': 3.4894829412462906e-06, 'epoch': 0.61}
+ 61%|██████    | 2340/3837 [7:14:47<4:26:42, 10.69s/it] 61%|██████    | 2341/3837 [7:14:55<4:08:03,  9.95s/it] 61%|██████    | 2342/3837 [7:15:07<4:19:38, 10.42s/it] 61%|██████    | 2343/3837 [7:15:18<4:27:03, 10.73s/it] 61%|██████    | 2344/3837 [7:15:29<4:32:31, 10.95s/it] 61%|██████    | 2345/3837 [7:15:39<4:24:07, 10.62s/it] 61%|██████    | 2346/3837 [7:15:51<4:29:45, 10.86s/it] 61%|██████    | 2347/3837 [7:16:00<4:21:28, 10.53s/it] 61%|██████    | 2348/3837 [7:16:12<4:29:25, 10.86s/it] 61%|██████    | 2349/3837 [7:16:24<4:34:28, 11.07s/it] 61%|██████    | 2350/3837 [7:16:33<4:25:02, 10.69s/it]                                                       {'loss': 3.5459, 'grad_norm': 13.558512687683105, 'learning_rate': 3.4492953549046067e-06, 'epoch': 0.61}
+ 61%|██████    | 2350/3837 [7:16:33<4:25:02, 10.69s/it] 61%|██████▏   | 2351/3837 [7:16:45<4:32:03, 10.98s/it] 61%|██████▏   | 2352/3837 [7:16:57<4:36:08, 11.16s/it] 61%|██████▏   | 2353/3837 [7:17:10<4:50:47, 11.76s/it] 61%|██████▏   | 2354/3837 [7:17:20<4:37:08, 11.21s/it] 61%|██████▏   | 2355/3837 [7:17:31<4:39:45, 11.33s/it] 61%|██████▏   | 2356/3837 [7:17:43<4:40:53, 11.38s/it] 61%|██████▏   | 2357/3837 [7:17:52<4:24:25, 10.72s/it] 61%|██████▏   | 2358/3837 [7:18:04<4:30:41, 10.98s/it] 61%|██████▏   | 2359/3837 [7:18:15<4:33:58, 11.12s/it] 62%|██████▏   | 2360/3837 [7:18:27<4:36:29, 11.23s/it]                                                       {'loss': 3.7603, 'grad_norm': 15.28806209564209, 'learning_rate': 3.4092183053694416e-06, 'epoch': 0.61}
+ 62%|██████▏   | 2360/3837 [7:18:27<4:36:29, 11.23s/it] 62%|██████▏   | 2361/3837 [7:18:38<4:39:14, 11.35s/it] 62%|██████▏   | 2362/3837 [7:18:48<4:28:30, 10.92s/it] 62%|██████▏   | 2363/3837 [7:19:01<4:44:53, 11.60s/it] 62%|██████▏   | 2364/3837 [7:19:14<4:55:48, 12.05s/it] 62%|██████▏   | 2365/3837 [7:19:26<4:51:18, 11.87s/it] 62%|██████▏   | 2366/3837 [7:19:36<4:35:41, 11.25s/it] 62%|██████▏   | 2367/3837 [7:19:49<4:49:37, 11.82s/it] 62%|██████▏   | 2368/3837 [7:19:59<4:35:08, 11.24s/it] 62%|██████▏   | 2369/3837 [7:20:08<4:24:02, 10.79s/it] 62%|██████▏   | 2370/3837 [7:20:20<4:29:12, 11.01s/it]                                                       {'loss': 3.8987, 'grad_norm': 19.83453941345215, 'learning_rate': 3.3692546493995465e-06, 'epoch': 0.62}
+ 62%|██████▏   | 2370/3837 [7:20:20<4:29:12, 11.01s/it] 62%|██████▏   | 2371/3837 [7:20:31<4:31:41, 11.12s/it] 62%|██████▏   | 2372/3837 [7:20:43<4:34:01, 11.22s/it] 62%|██████▏   | 2373/3837 [7:20:53<4:23:49, 10.81s/it] 62%|██████▏   | 2374/3837 [7:21:03<4:16:35, 10.52s/it] 62%|██████▏   | 2375/3837 [7:21:14<4:23:02, 10.79s/it] 62%|██████▏   | 2376/3837 [7:21:25<4:27:48, 11.00s/it] 62%|██████▏   | 2377/3837 [7:21:35<4:18:30, 10.62s/it] 62%|██████▏   | 2378/3837 [7:21:45<4:12:32, 10.39s/it] 62%|██████▏   | 2379/3837 [7:21:57<4:20:55, 10.74s/it] 62%|██████▏   | 2380/3837 [7:22:08<4:26:00, 10.95s/it]                                                       {'loss': 3.8286, 'grad_norm': 15.962160110473633, 'learning_rate': 3.329407235670796e-06, 'epoch': 0.62}
+ 62%|██████▏   | 2380/3837 [7:22:08<4:26:00, 10.95s/it] 62%|██████▏   | 2381/3837 [7:22:20<4:30:10, 11.13s/it] 62%|██████▏   | 2382/3837 [7:22:31<4:32:29, 11.24s/it] 62%|██████▏   | 2383/3837 [7:22:41<4:23:10, 10.86s/it] 62%|██████▏   | 2384/3837 [7:22:53<4:27:58, 11.07s/it] 62%|██████▏   | 2385/3837 [7:23:04<4:32:17, 11.25s/it] 62%|██████▏   | 2386/3837 [7:23:16<4:33:36, 11.31s/it] 62%|██████▏   | 2387/3837 [7:23:27<4:34:51, 11.37s/it] 62%|██████▏   | 2388/3837 [7:23:39<4:35:33, 11.41s/it] 62%|██████▏   | 2389/3837 [7:23:50<4:35:16, 11.41s/it] 62%|██████▏   | 2390/3837 [7:24:00<4:23:14, 10.92s/it]                                                       {'loss': 3.7235, 'grad_norm': 11.203872680664062, 'learning_rate': 3.2896789045731213e-06, 'epoch': 0.62}
+ 62%|██████▏   | 2390/3837 [7:24:00<4:23:14, 10.92s/it] 62%|██████▏   | 2391/3837 [7:24:08<4:03:05, 10.09s/it] 62%|██████▏   | 2392/3837 [7:24:20<4:13:00, 10.51s/it] 62%|██████▏   | 2393/3837 [7:24:29<4:07:34, 10.29s/it] 62%|██████▏   | 2394/3837 [7:24:39<4:03:27, 10.12s/it] 62%|██████▏   | 2395/3837 [7:24:51<4:13:25, 10.54s/it] 62%|██████▏   | 2396/3837 [7:25:02<4:21:36, 10.89s/it] 62%|██████▏   | 2397/3837 [7:25:14<4:25:38, 11.07s/it] 62%|██████▏   | 2398/3837 [7:25:24<4:17:04, 10.72s/it] 63%|██████▎   | 2399/3837 [7:25:37<4:34:03, 11.44s/it] 63%|██████▎   | 2400/3837 [7:25:48<4:34:18, 11.45s/it]                                                       {'loss': 3.5928, 'grad_norm': 12.741243362426758, 'learning_rate': 3.2500724880080457e-06, 'epoch': 0.63}
+ 63%|██████▎   | 2400/3837 [7:25:48<4:34:18, 11.45s/it] 63%|██████▎   | 2401/3837 [7:26:00<4:33:46, 11.44s/it] 63%|██████▎   | 2402/3837 [7:26:11<4:34:17, 11.47s/it] 63%|██████▎   | 2403/3837 [7:26:21<4:21:10, 10.93s/it] 63%|██████▎   | 2404/3837 [7:26:31<4:13:56, 10.63s/it] 63%|██████▎   | 2405/3837 [7:26:42<4:19:36, 10.88s/it] 63%|██████▎   | 2406/3837 [7:26:54<4:23:34, 11.05s/it] 63%|██████▎   | 2407/3837 [7:27:03<4:13:47, 10.65s/it] 63%|██████▎   | 2408/3837 [7:27:15<4:18:54, 10.87s/it] 63%|██████▎   | 2409/3837 [7:27:26<4:23:39, 11.08s/it] 63%|██████▎   | 2410/3837 [7:27:38<4:26:24, 11.20s/it]                                                       {'loss': 3.7883, 'grad_norm': 15.227933883666992, 'learning_rate': 3.2105908091868244e-06, 'epoch': 0.63}
+ 63%|██████▎   | 2410/3837 [7:27:38<4:26:24, 11.20s/it] 63%|██████▎   | 2411/3837 [7:27:49<4:27:42, 11.26s/it] 63%|██████▎   | 2412/3837 [7:28:01<4:29:16, 11.34s/it] 63%|██████▎   | 2413/3837 [7:28:14<4:41:50, 11.88s/it] 63%|██████▎   | 2414/3837 [7:28:26<4:39:37, 11.79s/it] 63%|██████▎   | 2415/3837 [7:28:37<4:37:32, 11.71s/it] 63%|██████▎   | 2416/3837 [7:28:47<4:23:59, 11.15s/it] 63%|██████▎   | 2417/3837 [7:28:58<4:26:55, 11.28s/it] 63%|██████▎   | 2418/3837 [7:29:10<4:27:57, 11.33s/it] 63%|██████▎   | 2419/3837 [7:29:23<4:40:18, 11.86s/it] 63%|██████▎   | 2420/3837 [7:29:34<4:36:42, 11.72s/it]                                                       {'loss': 3.8285, 'grad_norm': 20.24930763244629, 'learning_rate': 3.1712366824291942e-06, 'epoch': 0.63}
+ 63%|██████▎   | 2420/3837 [7:29:34<4:36:42, 11.72s/it] 63%|██████▎   | 2421/3837 [7:29:46<4:34:33, 11.63s/it] 63%|██████▎   | 2422/3837 [7:29:57<4:32:13, 11.54s/it] 63%|██████▎   | 2423/3837 [7:30:09<4:31:22, 11.52s/it] 63%|██████▎   | 2424/3837 [7:30:20<4:31:28, 11.53s/it] 63%|██████▎   | 2425/3837 [7:30:30<4:19:31, 11.03s/it] 63%|██████▎   | 2426/3837 [7:30:40<4:11:49, 10.71s/it] 63%|██████▎   | 2427/3837 [7:30:51<4:16:21, 10.91s/it] 63%|██████▎   | 2428/3837 [7:31:05<4:32:00, 11.58s/it] 63%|██████▎   | 2429/3837 [7:31:16<4:31:58, 11.59s/it] 63%|██████▎   | 2430/3837 [7:31:26<4:19:26, 11.06s/it]                                                       {'loss': 3.9102, 'grad_norm': 16.056732177734375, 'learning_rate': 3.1320129129627746e-06, 'epoch': 0.63}
+ 63%|██████▎   | 2430/3837 [7:31:26<4:19:26, 11.06s/it] 63%|██████▎   | 2431/3837 [7:31:36<4:10:48, 10.70s/it] 63%|██████▎   | 2432/3837 [7:31:47<4:16:22, 10.95s/it] 63%|██████▎   | 2433/3837 [7:31:57<4:08:41, 10.63s/it] 63%|██████▎   | 2434/3837 [7:32:07<4:03:00, 10.39s/it] 63%|██████▎   | 2435/3837 [7:32:19<4:09:52, 10.69s/it] 63%|██████▎   | 2436/3837 [7:32:30<4:15:37, 10.95s/it] 64%|██████▎   | 2437/3837 [7:32:42<4:19:35, 11.13s/it] 64%|██████▎   | 2438/3837 [7:32:53<4:23:08, 11.29s/it] 64%|██████▎   | 2439/3837 [7:33:03<4:12:54, 10.85s/it] 64%|██████▎   | 2440/3837 [7:33:15<4:17:26, 11.06s/it]                                                       {'loss': 3.6855, 'grad_norm': 15.546942710876465, 'learning_rate': 3.092922296723093e-06, 'epoch': 0.64}
+ 64%|██████▎   | 2440/3837 [7:33:15<4:17:26, 11.06s/it] 64%|██████▎   | 2441/3837 [7:33:24<4:08:40, 10.69s/it] 64%|██████▎   | 2442/3837 [7:33:34<4:02:20, 10.42s/it] 64%|██████▎   | 2443/3837 [7:33:46<4:09:23, 10.73s/it] 64%|██████▎   | 2444/3837 [7:33:57<4:14:43, 10.97s/it] 64%|██████▎   | 2445/3837 [7:34:09<4:17:21, 11.09s/it] 64%|██████▎   | 2446/3837 [7:34:20<4:19:53, 11.21s/it] 64%|██████▍   | 2447/3837 [7:34:32<4:21:40, 11.30s/it] 64%|██████▍   | 2448/3837 [7:34:42<4:12:23, 10.90s/it] 64%|██████▍   | 2449/3837 [7:34:53<4:16:20, 11.08s/it] 64%|██████▍   | 2450/3837 [7:35:03<4:06:42, 10.67s/it]                                                       {'loss': 3.3764, 'grad_norm': 11.7498197555542, 'learning_rate': 3.0539676201543033e-06, 'epoch': 0.64}
+ 64%|██████▍   | 2450/3837 [7:35:03<4:06:42, 10.67s/it] 64%|██████▍   | 2451/3837 [7:35:12<3:59:44, 10.38s/it] 64%|██████▍   | 2452/3837 [7:35:24<4:06:53, 10.70s/it] 64%|██████▍   | 2453/3837 [7:35:35<4:12:10, 10.93s/it] 64%|██████▍   | 2454/3837 [7:35:49<4:27:10, 11.59s/it] 64%|██████▍   | 2455/3837 [7:36:00<4:25:33, 11.53s/it] 64%|██████▍   | 2456/3837 [7:36:10<4:13:58, 11.03s/it] 64%|██████▍   | 2457/3837 [7:36:21<4:12:38, 10.98s/it] 64%|██████▍   | 2458/3837 [7:36:31<4:05:56, 10.70s/it] 64%|██████▍   | 2459/3837 [7:36:44<4:22:09, 11.41s/it] 64%|██████▍   | 2460/3837 [7:36:54<4:11:31, 10.96s/it]                                                       {'loss': 3.6341, 'grad_norm': 12.475979804992676, 'learning_rate': 3.0151516600105425e-06, 'epoch': 0.64}
+ 64%|██████▍   | 2460/3837 [7:36:54<4:11:31, 10.96s/it] 64%|██████▍   | 2461/3837 [7:37:04<4:03:59, 10.64s/it] 64%|██████▍   | 2462/3837 [7:37:13<3:57:48, 10.38s/it] 64%|██████▍   | 2463/3837 [7:37:23<3:53:58, 10.22s/it] 64%|██████▍   | 2464/3837 [7:37:33<3:51:08, 10.10s/it] 64%|██████▍   | 2465/3837 [7:37:45<4:01:40, 10.57s/it] 64%|██████▍   | 2466/3837 [7:37:54<3:55:45, 10.32s/it] 64%|██████▍   | 2467/3837 [7:38:06<4:03:16, 10.65s/it] 64%|██████▍   | 2468/3837 [7:38:16<3:56:39, 10.37s/it] 64%|██████▍   | 2469/3837 [7:38:27<4:04:01, 10.70s/it] 64%|██████▍   | 2470/3837 [7:38:37<3:58:20, 10.46s/it]                                                       {'loss': 3.5907, 'grad_norm': 13.076690673828125, 'learning_rate': 2.9764771831580196e-06, 'epoch': 0.64}
+ 64%|██████▍   | 2470/3837 [7:38:37<3:58:20, 10.46s/it] 64%|██████▍   | 2471/3837 [7:38:50<4:16:17, 11.26s/it] 64%|██████▍   | 2472/3837 [7:39:01<4:17:06, 11.30s/it] 64%|██████▍   | 2473/3837 [7:39:13<4:17:29, 11.33s/it] 64%|██████▍   | 2474/3837 [7:39:26<4:29:35, 11.87s/it] 65%|██████▍   | 2475/3837 [7:39:37<4:26:47, 11.75s/it] 65%|██████▍   | 2476/3837 [7:39:51<4:35:41, 12.15s/it] 65%|██████▍   | 2477/3837 [7:40:02<4:31:00, 11.96s/it] 65%|██████▍   | 2478/3837 [7:40:12<4:15:44, 11.29s/it] 65%|██████▍   | 2479/3837 [7:40:23<4:17:05, 11.36s/it] 65%|██████▍   | 2480/3837 [7:40:33<4:06:32, 10.90s/it]                                                       {'loss': 3.7659, 'grad_norm': 16.922422409057617, 'learning_rate': 2.937946946377771e-06, 'epoch': 0.65}
+ 65%|██████▍   | 2480/3837 [7:40:33<4:06:32, 10.90s/it] 65%|██████▍   | 2481/3837 [7:40:46<4:21:39, 11.58s/it] 65%|██████▍   | 2482/3837 [7:40:56<4:09:24, 11.04s/it] 65%|██████▍   | 2483/3837 [7:41:06<4:00:13, 10.65s/it] 65%|██████▍   | 2484/3837 [7:41:17<4:05:42, 10.90s/it] 65%|██████▍   | 2485/3837 [7:41:29<4:09:00, 11.05s/it] 65%|██████▍   | 2486/3837 [7:41:39<4:00:25, 10.68s/it] 65%|██████▍   | 2487/3837 [7:41:50<4:06:04, 10.94s/it] 65%|██████▍   | 2488/3837 [7:42:00<3:58:46, 10.62s/it] 65%|██████▍   | 2489/3837 [7:42:11<4:05:00, 10.91s/it] 65%|██████▍   | 2490/3837 [7:42:23<4:07:58, 11.05s/it]                                                       {'loss': 3.6365, 'grad_norm': 14.761316299438477, 'learning_rate': 2.8995636961691696e-06, 'epoch': 0.65}
+ 65%|██████▍   | 2490/3837 [7:42:23<4:07:58, 11.05s/it] 65%|██████▍   | 2491/3837 [7:42:34<4:10:32, 11.17s/it] 65%|██████▍   | 2492/3837 [7:42:44<4:01:55, 10.79s/it] 65%|██████▍   | 2493/3837 [7:42:56<4:06:59, 11.03s/it] 65%|██████▍   | 2494/3837 [7:43:07<4:09:54, 11.17s/it] 65%|██████▌   | 2495/3837 [7:43:19<4:11:48, 11.26s/it] 65%|██████▌   | 2496/3837 [7:43:30<4:13:26, 11.34s/it] 65%|██████▌   | 2497/3837 [7:43:42<4:14:15, 11.38s/it] 65%|██████▌   | 2498/3837 [7:43:53<4:13:47, 11.37s/it] 65%|██████▌   | 2499/3837 [7:44:04<4:13:26, 11.37s/it] 65%|██████▌   | 2500/3837 [7:44:16<4:13:40, 11.38s/it]                                                       {'loss': 3.609, 'grad_norm': 14.662260055541992, 'learning_rate': 2.8613301685541317e-06, 'epoch': 0.65}
+ 65%|██████▌   | 2500/3837 [7:44:16<4:13:40, 11.38s/it] 65%|██████▌   | 2501/3837 [7:44:26<4:03:42, 10.95s/it] 65%|██████▌   | 2502/3837 [7:44:36<3:56:30, 10.63s/it] 65%|██████▌   | 2503/3837 [7:44:47<4:02:31, 10.91s/it] 65%|██████▌   | 2504/3837 [7:44:59<4:06:09, 11.08s/it] 65%|██████▌   | 2505/3837 [7:45:09<3:58:27, 10.74s/it] 65%|██████▌   | 2506/3837 [7:45:20<4:03:41, 10.99s/it] 65%|██████▌   | 2507/3837 [7:45:32<4:06:30, 11.12s/it] 65%|██████▌   | 2508/3837 [7:45:41<3:57:06, 10.70s/it] 65%|██████▌   | 2509/3837 [7:45:53<4:01:47, 10.92s/it] 65%|██████▌   | 2510/3837 [7:46:04<4:05:39, 11.11s/it]                                                       {'loss': 3.3966, 'grad_norm': 15.36502456665039, 'learning_rate': 2.823249088882106e-06, 'epoch': 0.65}
+ 65%|██████▌   | 2510/3837 [7:46:04<4:05:39, 11.11s/it] 65%|██████▌   | 2511/3837 [7:46:16<4:08:27, 11.24s/it] 65%|██████▌   | 2512/3837 [7:46:29<4:20:47, 11.81s/it] 65%|██████▌   | 2513/3837 [7:46:39<4:06:49, 11.19s/it] 66%|██████▌   | 2514/3837 [7:46:50<4:08:22, 11.26s/it] 66%|██████▌   | 2515/3837 [7:47:00<3:58:27, 10.82s/it] 66%|██████▌   | 2516/3837 [7:47:12<4:02:38, 11.02s/it] 66%|██████▌   | 2517/3837 [7:47:22<3:55:25, 10.70s/it] 66%|██████▌   | 2518/3837 [7:47:33<4:00:10, 10.93s/it] 66%|██████▌   | 2519/3837 [7:47:44<4:03:13, 11.07s/it] 66%|██████▌   | 2520/3837 [7:47:56<4:05:48, 11.20s/it]                                                       {'loss': 3.7109, 'grad_norm': 13.890869140625, 'learning_rate': 2.785323171635792e-06, 'epoch': 0.66}
+ 66%|██████▌   | 2520/3837 [7:47:56<4:05:48, 11.20s/it] 66%|██████▌   | 2521/3837 [7:48:06<3:58:00, 10.85s/it] 66%|██████▌   | 2522/3837 [7:48:17<4:01:38, 11.03s/it] 66%|██████▌   | 2523/3837 [7:48:30<4:15:21, 11.66s/it] 66%|██████▌   | 2524/3837 [7:48:42<4:14:05, 11.61s/it] 66%|██████▌   | 2525/3837 [7:48:55<4:24:07, 12.08s/it] 66%|██████▌   | 2526/3837 [7:49:07<4:20:04, 11.90s/it] 66%|██████▌   | 2527/3837 [7:49:18<4:17:20, 11.79s/it] 66%|██████▌   | 2528/3837 [7:49:28<4:04:13, 11.19s/it] 66%|██████▌   | 2529/3837 [7:49:38<3:55:52, 10.82s/it] 66%|██████▌   | 2530/3837 [7:49:48<3:50:45, 10.59s/it]                                                       {'loss': 3.5207, 'grad_norm': 12.394003868103027, 'learning_rate': 2.7475551202376592e-06, 'epoch': 0.66}
+ 66%|██████▌   | 2530/3837 [7:49:48<3:50:45, 10.59s/it] 66%|██████▌   | 2531/3837 [7:49:59<3:55:58, 10.84s/it] 66%|██████▌   | 2532/3837 [7:50:09<3:49:24, 10.55s/it] 66%|██████▌   | 2533/3837 [7:50:21<3:55:06, 10.82s/it] 66%|██████▌   | 2534/3837 [7:50:32<4:00:15, 11.06s/it] 66%|██████▌   | 2535/3837 [7:50:44<4:01:54, 11.15s/it] 66%|██████▌   | 2536/3837 [7:50:53<3:52:43, 10.73s/it] 66%|██████▌   | 2537/3837 [7:51:03<3:46:54, 10.47s/it] 66%|██████▌   | 2538/3837 [7:51:15<3:53:23, 10.78s/it] 66%|██████▌   | 2539/3837 [7:51:25<3:46:29, 10.47s/it] 66%|██████▌   | 2540/3837 [7:51:36<3:52:22, 10.75s/it]                                                       {'loss': 3.7788, 'grad_norm': 15.049907684326172, 'learning_rate': 2.709947626857231e-06, 'epoch': 0.66}
+ 66%|██████▌   | 2540/3837 [7:51:36<3:52:22, 10.75s/it] 66%|██████▌   | 2541/3837 [7:51:49<4:07:41, 11.47s/it] 66%|██████▌   | 2542/3837 [7:52:00<4:06:42, 11.43s/it] 66%|██████▋   | 2543/3837 [7:52:12<4:06:23, 11.42s/it] 66%|██████▋   | 2544/3837 [7:52:22<3:56:15, 10.96s/it] 66%|██████▋   | 2545/3837 [7:52:32<3:49:02, 10.64s/it] 66%|██████▋   | 2546/3837 [7:52:42<3:44:24, 10.43s/it] 66%|██████▋   | 2547/3837 [7:52:53<3:50:39, 10.73s/it] 66%|██████▋   | 2548/3837 [7:53:03<3:45:06, 10.48s/it] 66%|██████▋   | 2549/3837 [7:53:14<3:50:58, 10.76s/it] 66%|██████▋   | 2550/3837 [7:53:24<3:44:44, 10.48s/it]                                                       {'loss': 3.5978, 'grad_norm': 12.339613914489746, 'learning_rate': 2.6725033722191933e-06, 'epoch': 0.66}
+ 66%|██████▋   | 2550/3837 [7:53:24<3:44:44, 10.48s/it] 66%|██████▋   | 2551/3837 [7:53:34<3:40:34, 10.29s/it] 67%|██████▋   | 2552/3837 [7:53:45<3:48:14, 10.66s/it] 67%|██████▋   | 2553/3837 [7:53:57<3:52:37, 10.87s/it] 67%|██████▋   | 2554/3837 [7:54:07<3:45:34, 10.55s/it] 67%|██████▋   | 2555/3837 [7:54:18<3:51:29, 10.83s/it] 67%|██████▋   | 2556/3837 [7:54:29<3:49:03, 10.73s/it] 67%|██████▋   | 2557/3837 [7:54:40<3:53:38, 10.95s/it] 67%|██████▋   | 2558/3837 [7:54:52<3:57:23, 11.14s/it] 67%|██████▋   | 2559/3837 [7:55:03<3:59:11, 11.23s/it] 67%|██████▋   | 2560/3837 [7:55:15<4:00:41, 11.31s/it]                                                       {'loss': 3.5278, 'grad_norm': 14.613420486450195, 'learning_rate': 2.6352250254123024e-06, 'epoch': 0.67}
+ 67%|██████▋   | 2560/3837 [7:55:15<4:00:41, 11.31s/it] 67%|██████▋   | 2561/3837 [7:55:24<3:50:49, 10.85s/it] 67%|██████▋   | 2562/3837 [7:55:36<3:55:02, 11.06s/it] 67%|██████▋   | 2563/3837 [7:55:46<3:46:52, 10.68s/it] 67%|██████▋   | 2564/3837 [7:55:57<3:51:16, 10.90s/it] 67%|██████▋   | 2565/3837 [7:56:09<3:54:58, 11.08s/it] 67%|██████▋   | 2566/3837 [7:56:20<3:57:20, 11.20s/it] 67%|██████▋   | 2567/3837 [7:56:32<3:58:46, 11.28s/it] 67%|██████▋   | 2568/3837 [7:56:45<4:10:37, 11.85s/it] 67%|██████▋   | 2569/3837 [7:56:55<3:57:42, 11.25s/it] 67%|██████▋   | 2570/3837 [7:57:06<3:58:50, 11.31s/it]                                                       {'loss': 3.5254, 'grad_norm': 16.619083404541016, 'learning_rate': 2.598115243699123e-06, 'epoch': 0.67}
+ 67%|██████▋   | 2570/3837 [7:57:06<3:58:50, 11.31s/it] 67%|██████▋   | 2571/3837 [7:57:19<4:10:32, 11.87s/it] 67%|██████▋   | 2572/3837 [7:57:31<4:07:54, 11.76s/it] 67%|██████▋   | 2573/3837 [7:57:42<4:05:31, 11.65s/it] 67%|██████▋   | 2574/3837 [7:57:54<4:05:15, 11.65s/it] 67%|██████▋   | 2575/3837 [7:58:07<4:15:08, 12.13s/it] 67%|██████▋   | 2576/3837 [7:58:18<4:07:19, 11.77s/it] 67%|██████▋   | 2577/3837 [7:58:28<3:54:27, 11.16s/it] 67%|██████▋   | 2578/3837 [7:58:38<3:48:09, 10.87s/it] 67%|██████▋   | 2579/3837 [7:58:48<3:41:28, 10.56s/it] 67%|██████▋   | 2580/3837 [7:58:59<3:46:50, 10.83s/it]                                                       {'loss': 3.6409, 'grad_norm': 15.4705810546875, 'learning_rate': 2.5611766723266263e-06, 'epoch': 0.67}
+ 67%|██████▋   | 2580/3837 [7:58:59<3:46:50, 10.83s/it] 67%|██████▋   | 2581/3837 [7:59:11<3:50:55, 11.03s/it] 67%|██████▋   | 2582/3837 [7:59:22<3:54:06, 11.19s/it] 67%|██████▋   | 2583/3837 [7:59:34<3:55:42, 11.28s/it] 67%|██████▋   | 2584/3837 [7:59:44<3:47:09, 10.88s/it] 67%|██████▋   | 2585/3837 [7:59:55<3:50:57, 11.07s/it] 67%|██████▋   | 2586/3837 [8:00:05<3:43:08, 10.70s/it] 67%|██████▋   | 2587/3837 [8:00:17<3:47:47, 10.93s/it] 67%|██████▋   | 2588/3837 [8:00:28<3:52:01, 11.15s/it] 67%|██████▋   | 2589/3837 [8:00:40<3:54:02, 11.25s/it] 68%|██████▊   | 2590/3837 [8:00:50<3:44:44, 10.81s/it]                                                       {'loss': 3.5709, 'grad_norm': 16.65482521057129, 'learning_rate': 2.52441194433762e-06, 'epoch': 0.67}
+ 68%|██████▊   | 2590/3837 [8:00:50<3:44:44, 10.81s/it] 68%|██████▊   | 2591/3837 [8:01:01<3:49:50, 11.07s/it] 68%|██████▊   | 2592/3837 [8:01:11<3:42:26, 10.72s/it] 68%|██████▊   | 2593/3837 [8:01:24<3:57:07, 11.44s/it] 68%|██████▊   | 2594/3837 [8:01:36<3:57:32, 11.47s/it] 68%|██████▊   | 2595/3837 [8:01:47<3:57:27, 11.47s/it] 68%|██████▊   | 2596/3837 [8:01:59<3:57:25, 11.48s/it] 68%|██████▊   | 2597/3837 [8:02:09<3:47:06, 10.99s/it] 68%|██████▊   | 2598/3837 [8:02:22<4:00:30, 11.65s/it] 68%|██████▊   | 2599/3837 [8:02:33<3:59:20, 11.60s/it] 68%|██████▊   | 2600/3837 [8:02:45<3:58:19, 11.56s/it]                                                       {'loss': 3.7983, 'grad_norm': 17.72576904296875, 'learning_rate': 2.4878236803830737e-06, 'epoch': 0.68}
+ 68%|██████▊   | 2600/3837 [8:02:45<3:58:19, 11.56s/it] 68%|██████▊   | 2601/3837 [8:02:56<3:56:54, 11.50s/it] 68%|██████▊   | 2602/3837 [8:03:06<3:47:11, 11.04s/it] 68%|██████▊   | 2603/3837 [8:03:18<3:49:56, 11.18s/it] 68%|██████▊   | 2604/3837 [8:03:29<3:52:40, 11.32s/it] 68%|██████▊   | 2605/3837 [8:03:41<3:53:40, 11.38s/it] 68%|██████▊   | 2606/3837 [8:03:52<3:53:56, 11.40s/it] 68%|██████▊   | 2607/3837 [8:04:02<3:44:32, 10.95s/it] 68%|██████▊   | 2608/3837 [8:04:14<3:48:08, 11.14s/it] 68%|██████▊   | 2609/3837 [8:04:23<3:40:05, 10.75s/it] 68%|██████▊   | 2610/3837 [8:04:33<3:34:02, 10.47s/it]                                                       {'loss': 3.4455, 'grad_norm': 10.647336959838867, 'learning_rate': 2.451414488535296e-06, 'epoch': 0.68}
+ 68%|██████▊   | 2610/3837 [8:04:33<3:34:02, 10.47s/it] 68%|██████▊   | 2611/3837 [8:04:43<3:30:21, 10.29s/it] 68%|██████▊   | 2612/3837 [8:04:55<3:37:22, 10.65s/it] 68%|██████▊   | 2613/3837 [8:05:05<3:32:57, 10.44s/it] 68%|██████▊   | 2614/3837 [8:05:16<3:38:48, 10.73s/it] 68%|██████▊   | 2615/3837 [8:05:28<3:43:51, 10.99s/it] 68%|██████▊   | 2616/3837 [8:05:39<3:43:14, 10.97s/it] 68%|██████▊   | 2617/3837 [8:05:48<3:36:43, 10.66s/it] 68%|██████▊   | 2618/3837 [8:05:58<3:31:12, 10.40s/it] 68%|██████▊   | 2619/3837 [8:06:08<3:28:47, 10.28s/it] 68%|██████▊   | 2620/3837 [8:06:20<3:35:43, 10.64s/it]                                                       {'loss': 3.271, 'grad_norm': 12.20052719116211, 'learning_rate': 2.415186964102049e-06, 'epoch': 0.68}
+ 68%|██████▊   | 2620/3837 [8:06:20<3:35:43, 10.64s/it] 68%|██████▊   | 2621/3837 [8:06:31<3:41:40, 10.94s/it] 68%|██████▊   | 2622/3837 [8:06:41<3:34:12, 10.58s/it] 68%|██████▊   | 2623/3837 [8:06:52<3:38:54, 10.82s/it] 68%|██████▊   | 2624/3837 [8:07:02<3:33:21, 10.55s/it] 68%|██████▊   | 2625/3837 [8:07:14<3:38:53, 10.84s/it] 68%|██████▊   | 2626/3837 [8:07:24<3:33:01, 10.55s/it] 68%|██████▊   | 2627/3837 [8:07:35<3:38:42, 10.85s/it] 68%|██████▊   | 2628/3837 [8:07:47<3:42:06, 11.02s/it] 69%|██████▊   | 2629/3837 [8:07:57<3:35:22, 10.70s/it] 69%|██████▊   | 2630/3837 [8:08:06<3:29:38, 10.42s/it]                                                       {'loss': 3.4162, 'grad_norm': 11.24185848236084, 'learning_rate': 2.3791436894415322e-06, 'epoch': 0.69}
+ 69%|██████▊   | 2630/3837 [8:08:06<3:29:38, 10.42s/it] 69%|██████▊   | 2631/3837 [8:08:18<3:35:48, 10.74s/it] 69%|██████▊   | 2632/3837 [8:08:29<3:39:37, 10.94s/it] 69%|██████▊   | 2633/3837 [8:08:41<3:42:14, 11.07s/it] 69%|██████▊   | 2634/3837 [8:08:52<3:44:31, 11.20s/it] 69%|██████▊   | 2635/3837 [8:09:02<3:35:35, 10.76s/it] 69%|██████▊   | 2636/3837 [8:09:12<3:29:29, 10.47s/it] 69%|██████▊   | 2637/3837 [8:09:23<3:35:11, 10.76s/it] 69%|██████▉   | 2638/3837 [8:09:35<3:39:26, 10.98s/it] 69%|██████▉   | 2639/3837 [8:09:46<3:41:55, 11.11s/it] 69%|██████▉   | 2640/3837 [8:09:58<3:43:59, 11.23s/it]                                                       {'loss': 3.4585, 'grad_norm': 13.407733917236328, 'learning_rate': 2.343287233778319e-06, 'epoch': 0.69}
+ 69%|██████▉   | 2640/3837 [8:09:58<3:43:59, 11.23s/it] 69%|██████▉   | 2641/3837 [8:10:09<3:45:08, 11.30s/it] 69%|██████▉   | 2642/3837 [8:10:19<3:35:49, 10.84s/it] 69%|██████▉   | 2643/3837 [8:10:29<3:30:53, 10.60s/it] 69%|██████▉   | 2644/3837 [8:10:40<3:36:24, 10.88s/it] 69%|██████▉   | 2645/3837 [8:10:52<3:39:11, 11.03s/it] 69%|██████▉   | 2646/3837 [8:11:03<3:41:19, 11.15s/it] 69%|██████▉   | 2647/3837 [8:11:15<3:42:49, 11.23s/it] 69%|██████▉   | 2648/3837 [8:11:26<3:43:41, 11.29s/it] 69%|██████▉   | 2649/3837 [8:11:38<3:44:25, 11.33s/it] 69%|██████▉   | 2650/3837 [8:11:49<3:45:56, 11.42s/it]                                                       {'loss': 3.5986, 'grad_norm': 17.364498138427734, 'learning_rate': 2.3076201530202097e-06, 'epoch': 0.69}
+ 69%|██████▉   | 2650/3837 [8:11:49<3:45:56, 11.42s/it] 69%|██████▉   | 2651/3837 [8:11:59<3:36:25, 10.95s/it] 69%|██████▉   | 2652/3837 [8:12:09<3:29:42, 10.62s/it] 69%|██████▉   | 2653/3837 [8:12:19<3:25:39, 10.42s/it] 69%|██████▉   | 2654/3837 [8:12:30<3:31:23, 10.72s/it] 69%|██████▉   | 2655/3837 [8:12:43<3:45:35, 11.45s/it] 69%|██████▉   | 2656/3837 [8:12:55<3:45:15, 11.44s/it] 69%|██████▉   | 2657/3837 [8:13:06<3:45:33, 11.47s/it] 69%|██████▉   | 2658/3837 [8:13:19<3:55:19, 11.98s/it] 69%|██████▉   | 2659/3837 [8:13:29<3:43:12, 11.37s/it] 69%|██████▉   | 2660/3837 [8:13:43<3:52:59, 11.88s/it]                                                       {'loss': 3.414, 'grad_norm': 16.45816993713379, 'learning_rate': 2.2721449895760513e-06, 'epoch': 0.69}
+ 69%|██████▉   | 2660/3837 [8:13:43<3:52:59, 11.88s/it] 69%|██████▉   | 2661/3837 [8:13:54<3:50:50, 11.78s/it] 69%|██████▉   | 2662/3837 [8:14:05<3:48:24, 11.66s/it] 69%|██████▉   | 2663/3837 [8:14:17<3:47:26, 11.62s/it] 69%|██████▉   | 2664/3837 [8:14:27<3:36:27, 11.07s/it] 69%|██████▉   | 2665/3837 [8:14:38<3:38:10, 11.17s/it] 69%|██████▉   | 2666/3837 [8:14:51<3:49:10, 11.74s/it] 70%|██████▉   | 2667/3837 [8:15:01<3:38:53, 11.22s/it] 70%|██████▉   | 2668/3837 [8:15:13<3:39:31, 11.27s/it] 70%|██████▉   | 2669/3837 [8:15:23<3:31:31, 10.87s/it] 70%|██████▉   | 2670/3837 [8:15:34<3:35:10, 11.06s/it]                                                       {'loss': 3.5246, 'grad_norm': 15.844749450683594, 'learning_rate': 2.2368642721745e-06, 'epoch': 0.7}
+ 70%|██████▉   | 2670/3837 [8:15:34<3:35:10, 11.06s/it] 70%|██████▉   | 2671/3837 [8:15:46<3:37:37, 11.20s/it] 70%|██████▉   | 2672/3837 [8:15:57<3:39:20, 11.30s/it] 70%|██████▉   | 2673/3837 [8:16:09<3:39:39, 11.32s/it] 70%|██████▉   | 2674/3837 [8:16:18<3:31:01, 10.89s/it] 70%|██████▉   | 2675/3837 [8:16:30<3:33:39, 11.03s/it] 70%|██████▉   | 2676/3837 [8:16:41<3:36:05, 11.17s/it] 70%|██████▉   | 2677/3837 [8:16:54<3:47:08, 11.75s/it] 70%|██████▉   | 2678/3837 [8:17:04<3:35:56, 11.18s/it] 70%|██████▉   | 2679/3837 [8:17:16<3:37:09, 11.25s/it] 70%|██████▉   | 2680/3837 [8:17:25<3:29:03, 10.84s/it]                                                       {'loss': 3.4861, 'grad_norm': 16.561187744140625, 'learning_rate': 2.201780515683781e-06, 'epoch': 0.7}
+ 70%|██████▉   | 2680/3837 [8:17:25<3:29:03, 10.84s/it] 70%|██████▉   | 2681/3837 [8:17:37<3:32:31, 11.03s/it] 70%|██████▉   | 2682/3837 [8:17:47<3:26:08, 10.71s/it] 70%|██████▉   | 2683/3837 [8:17:58<3:30:34, 10.95s/it] 70%|██████▉   | 2684/3837 [8:18:08<3:24:34, 10.65s/it] 70%|██████▉   | 2685/3837 [8:18:20<3:29:14, 10.90s/it] 70%|███████   | 2686/3837 [8:18:31<3:32:29, 11.08s/it] 70%|███████   | 2687/3837 [8:18:43<3:34:38, 11.20s/it] 70%|███████   | 2688/3837 [8:18:55<3:37:27, 11.36s/it] 70%|███████   | 2689/3837 [8:19:05<3:29:26, 10.95s/it] 70%|███████   | 2690/3837 [8:19:16<3:32:50, 11.13s/it]                                                       {'loss': 3.4997, 'grad_norm': 10.903932571411133, 'learning_rate': 2.1668962209324103e-06, 'epoch': 0.7}
+ 70%|███████   | 2690/3837 [8:19:16<3:32:50, 11.13s/it] 70%|███████   | 2691/3837 [8:19:28<3:34:41, 11.24s/it] 70%|███████   | 2692/3837 [8:19:39<3:35:36, 11.30s/it] 70%|███████   | 2693/3837 [8:19:49<3:26:36, 10.84s/it] 70%|███████   | 2694/3837 [8:19:59<3:21:18, 10.57s/it] 70%|███████   | 2695/3837 [8:20:10<3:26:27, 10.85s/it] 70%|███████   | 2696/3837 [8:20:20<3:20:42, 10.55s/it] 70%|███████   | 2697/3837 [8:20:32<3:27:45, 10.93s/it] 70%|███████   | 2698/3837 [8:20:43<3:30:16, 11.08s/it] 70%|███████   | 2699/3837 [8:20:55<3:32:54, 11.23s/it] 70%|███████   | 2700/3837 [8:21:05<3:24:39, 10.80s/it]                                                       {'loss': 3.4731, 'grad_norm': 14.6264066696167, 'learning_rate': 2.132213874530948e-06, 'epoch': 0.7}
+ 70%|███████   | 2700/3837 [8:21:05<3:24:39, 10.80s/it] 70%|███████   | 2701/3837 [8:21:15<3:18:53, 10.51s/it] 70%|███████   | 2702/3837 [8:21:26<3:24:36, 10.82s/it] 70%|███████   | 2703/3837 [8:21:36<3:18:41, 10.51s/it] 70%|███████   | 2704/3837 [8:21:46<3:14:14, 10.29s/it] 70%|███████   | 2705/3837 [8:21:56<3:12:05, 10.18s/it] 71%|███████   | 2706/3837 [8:22:05<3:09:59, 10.08s/it] 71%|███████   | 2707/3837 [8:22:15<3:08:10,  9.99s/it] 71%|███████   | 2708/3837 [8:22:25<3:07:18,  9.95s/it] 71%|███████   | 2709/3837 [8:22:35<3:07:19,  9.96s/it] 71%|███████   | 2710/3837 [8:22:47<3:16:15, 10.45s/it]                                                       {'loss': 3.2508, 'grad_norm': 14.201605796813965, 'learning_rate': 2.097735948694732e-06, 'epoch': 0.71}
+ 71%|███████   | 2710/3837 [8:22:47<3:16:15, 10.45s/it] 71%|███████   | 2711/3837 [8:22:58<3:22:03, 10.77s/it] 71%|███████   | 2712/3837 [8:23:10<3:25:24, 10.96s/it] 71%|███████   | 2713/3837 [8:23:19<3:18:48, 10.61s/it] 71%|███████   | 2714/3837 [8:23:31<3:23:45, 10.89s/it] 71%|███████   | 2715/3837 [8:23:42<3:27:42, 11.11s/it] 71%|███████   | 2716/3837 [8:23:54<3:29:47, 11.23s/it] 71%|███████   | 2717/3837 [8:24:05<3:30:43, 11.29s/it] 71%|███████   | 2718/3837 [8:24:17<3:32:00, 11.37s/it] 71%|███████   | 2719/3837 [8:24:28<3:31:57, 11.38s/it] 71%|███████   | 2720/3837 [8:24:40<3:32:16, 11.40s/it]                                                       {'loss': 3.3319, 'grad_norm': 18.47288703918457, 'learning_rate': 2.0634649010676693e-06, 'epoch': 0.71}
+ 71%|███████   | 2720/3837 [8:24:40<3:32:16, 11.40s/it] 71%|███████   | 2721/3837 [8:24:51<3:32:40, 11.43s/it] 71%|███████   | 2722/3837 [8:25:03<3:33:22, 11.48s/it] 71%|███████   | 2723/3837 [8:25:14<3:33:11, 11.48s/it] 71%|███████   | 2724/3837 [8:25:26<3:32:57, 11.48s/it] 71%|███████   | 2725/3837 [8:25:37<3:32:28, 11.46s/it] 71%|███████   | 2726/3837 [8:25:49<3:32:33, 11.48s/it] 71%|███████   | 2727/3837 [8:25:59<3:23:23, 10.99s/it] 71%|███████   | 2728/3837 [8:26:10<3:25:47, 11.13s/it] 71%|███████   | 2729/3837 [8:26:22<3:27:00, 11.21s/it] 71%|███████   | 2730/3837 [8:26:31<3:18:58, 10.78s/it]                                                       {'loss': 3.3993, 'grad_norm': 12.578482627868652, 'learning_rate': 2.029403174547037e-06, 'epoch': 0.71}
+ 71%|███████   | 2730/3837 [8:26:31<3:18:58, 10.78s/it] 71%|███████   | 2731/3837 [8:26:43<3:22:44, 11.00s/it] 71%|███████   | 2732/3837 [8:26:53<3:16:14, 10.66s/it] 71%|███████   | 2733/3837 [8:27:04<3:20:34, 10.90s/it] 71%|███████▏  | 2734/3837 [8:27:14<3:14:00, 10.55s/it] 71%|███████▏  | 2735/3837 [8:27:25<3:19:18, 10.85s/it] 71%|███████▏  | 2736/3837 [8:27:37<3:22:20, 11.03s/it] 71%|███████▏  | 2737/3837 [8:27:47<3:15:59, 10.69s/it] 71%|███████▏  | 2738/3837 [8:27:58<3:21:12, 10.99s/it] 71%|███████▏  | 2739/3837 [8:28:10<3:24:00, 11.15s/it] 71%|███████▏  | 2740/3837 [8:28:23<3:34:39, 11.74s/it]                                                       {'loss': 3.7486, 'grad_norm': 15.884589195251465, 'learning_rate': 1.9955531971093633e-06, 'epoch': 0.71}
+ 71%|███████▏  | 2740/3837 [8:28:23<3:34:39, 11.74s/it] 71%|███████▏  | 2741/3837 [8:28:35<3:32:48, 11.65s/it] 71%|███████▏  | 2742/3837 [8:28:44<3:22:39, 11.10s/it] 71%|███████▏  | 2743/3837 [8:28:54<3:16:11, 10.76s/it] 72%|███████▏  | 2744/3837 [8:29:06<3:20:23, 11.00s/it] 72%|███████▏  | 2745/3837 [8:29:17<3:22:59, 11.15s/it] 72%|███████▏  | 2746/3837 [8:29:29<3:24:21, 11.24s/it] 72%|███████▏  | 2747/3837 [8:29:40<3:25:30, 11.31s/it] 72%|███████▏  | 2748/3837 [8:29:52<3:25:53, 11.34s/it] 72%|███████▏  | 2749/3837 [8:30:03<3:26:59, 11.41s/it] 72%|███████▏  | 2750/3837 [8:30:15<3:27:37, 11.46s/it]                                                       {'loss': 3.5858, 'grad_norm': 15.347840309143066, 'learning_rate': 1.9619173816373432e-06, 'epoch': 0.72}
+ 72%|███████���  | 2750/3837 [8:30:15<3:27:37, 11.46s/it] 72%|███████▏  | 2751/3837 [8:30:27<3:28:16, 11.51s/it] 72%|███████▏  | 2752/3837 [8:30:38<3:27:40, 11.48s/it] 72%|███████▏  | 2753/3837 [8:30:49<3:27:09, 11.47s/it] 72%|███████▏  | 2754/3837 [8:31:01<3:26:52, 11.46s/it] 72%|███████▏  | 2755/3837 [8:31:12<3:27:41, 11.52s/it] 72%|███████▏  | 2756/3837 [8:31:24<3:27:50, 11.54s/it] 72%|███████▏  | 2757/3837 [8:31:36<3:27:24, 11.52s/it] 72%|███████▏  | 2758/3837 [8:31:45<3:17:59, 11.01s/it] 72%|███████▏  | 2759/3837 [8:31:55<3:11:21, 10.65s/it] 72%|███████▏  | 2760/3837 [8:32:05<3:06:37, 10.40s/it]                                                       {'loss': 3.3866, 'grad_norm': 10.553122520446777, 'learning_rate': 1.92849812574785e-06, 'epoch': 0.72}
+ 72%|███████▏  | 2760/3837 [8:32:05<3:06:37, 10.40s/it] 72%|███████▏  | 2761/3837 [8:32:15<3:04:06, 10.27s/it] 72%|███████▏  | 2762/3837 [8:32:27<3:11:29, 10.69s/it] 72%|███████▏  | 2763/3837 [8:32:36<3:06:17, 10.41s/it] 72%|███████▏  | 2764/3837 [8:32:48<3:11:56, 10.73s/it] 72%|███████▏  | 2765/3837 [8:32:59<3:16:02, 10.97s/it] 72%|███████▏  | 2766/3837 [8:33:09<3:10:05, 10.65s/it] 72%|███████▏  | 2767/3837 [8:33:19<3:05:48, 10.42s/it] 72%|███████▏  | 2768/3837 [8:33:31<3:11:40, 10.76s/it] 72%|███████▏  | 2769/3837 [8:33:42<3:15:13, 10.97s/it] 72%|███████▏  | 2770/3837 [8:33:54<3:18:13, 11.15s/it]                                                       {'loss': 3.436, 'grad_norm': 14.734107971191406, 'learning_rate': 1.895297811621038e-06, 'epoch': 0.72}
+ 72%|███████▏  | 2770/3837 [8:33:54<3:18:13, 11.15s/it] 72%|███████▏  | 2771/3837 [8:34:07<3:29:20, 11.78s/it] 72%|███████▏  | 2772/3837 [8:34:18<3:24:02, 11.50s/it] 72%|███████▏  | 2773/3837 [8:34:28<3:16:07, 11.06s/it] 72%|███████▏  | 2774/3837 [8:34:38<3:10:09, 10.73s/it] 72%|███████▏  | 2775/3837 [8:34:49<3:13:38, 10.94s/it] 72%|███████▏  | 2776/3837 [8:34:59<3:07:01, 10.58s/it] 72%|███████▏  | 2777/3837 [8:35:10<3:11:29, 10.84s/it] 72%|███████▏  | 2778/3837 [8:35:22<3:14:59, 11.05s/it] 72%|███████▏  | 2779/3837 [8:35:35<3:26:06, 11.69s/it] 72%|███████▏  | 2780/3837 [8:35:47<3:25:15, 11.65s/it]                                                       {'loss': 3.4734, 'grad_norm': 11.851035118103027, 'learning_rate': 1.862318805830518e-06, 'epoch': 0.72}
+ 72%|███████▏  | 2780/3837 [8:35:47<3:25:15, 11.65s/it] 72%|███████▏  | 2781/3837 [8:35:58<3:23:48, 11.58s/it] 73%|███████▎  | 2782/3837 [8:36:10<3:23:24, 11.57s/it] 73%|███████▎  | 2783/3837 [8:36:20<3:13:57, 11.04s/it] 73%|███████▎  | 2784/3837 [8:36:31<3:16:08, 11.18s/it] 73%|███████▎  | 2785/3837 [8:36:42<3:17:09, 11.24s/it] 73%|███████▎  | 2786/3837 [8:36:54<3:17:55, 11.30s/it] 73%|███████▎  | 2787/3837 [8:37:05<3:18:26, 11.34s/it] 73%|███████▎  | 2788/3837 [8:37:15<3:10:41, 10.91s/it] 73%|███████▎  | 2789/3837 [8:37:25<3:05:59, 10.65s/it] 73%|███████▎  | 2790/3837 [8:37:35<3:01:08, 10.38s/it]                                                       {'loss': 3.6312, 'grad_norm': 10.015957832336426, 'learning_rate': 1.8295634591746831e-06, 'epoch': 0.73}
+ 73%|███████▎  | 2790/3837 [8:37:35<3:01:08, 10.38s/it] 73%|███████▎  | 2791/3837 [8:37:46<3:06:35, 10.70s/it] 73%|███████▎  | 2792/3837 [8:37:56<3:02:33, 10.48s/it] 73%|███████▎  | 2793/3837 [8:38:08<3:09:10, 10.87s/it] 73%|███████▎  | 2794/3837 [8:38:20<3:12:47, 11.09s/it] 73%|███████▎  | 2795/3837 [8:38:30<3:07:01, 10.77s/it] 73%|███████▎  | 2796/3837 [8:38:40<3:02:07, 10.50s/it] 73%|███████▎  | 2797/3837 [8:38:51<3:07:20, 10.81s/it] 73%|███████▎  | 2798/3837 [8:39:01<3:03:06, 10.57s/it] 73%|███████▎  | 2799/3837 [8:39:11<2:59:45, 10.39s/it] 73%|███████▎  | 2800/3837 [8:39:23<3:05:03, 10.71s/it]                                                       {'loss': 3.4476, 'grad_norm': 16.27783203125, 'learning_rate': 1.7970341065091246e-06, 'epoch': 0.73}
+ 73%|███████▎  | 2800/3837 [8:39:23<3:05:03, 10.71s/it] 73%|███████▎  | 2801/3837 [8:39:32<3:00:20, 10.44s/it] 73%|███████▎  | 2802/3837 [8:39:44<3:05:38, 10.76s/it] 73%|███████▎  | 2803/3837 [8:39:55<3:09:32, 11.00s/it] 73%|███████▎  | 2804/3837 [8:40:05<3:03:10, 10.64s/it] 73%|███��███▎  | 2805/3837 [8:40:19<3:16:14, 11.41s/it] 73%|███████▎  | 2806/3837 [8:40:30<3:16:02, 11.41s/it] 73%|███████▎  | 2807/3837 [8:40:41<3:15:49, 11.41s/it] 73%|███████▎  | 2808/3837 [8:40:53<3:16:06, 11.44s/it] 73%|███████▎  | 2809/3837 [8:41:03<3:09:14, 11.05s/it] 73%|███████▎  | 2810/3837 [8:41:13<3:03:05, 10.70s/it]                                                       {'loss': 3.3677, 'grad_norm': 15.0385160446167, 'learning_rate': 1.7647330665802126e-06, 'epoch': 0.73}
+ 73%|███████▎  | 2810/3837 [8:41:13<3:03:05, 10.70s/it] 73%|███████▎  | 2811/3837 [8:41:24<3:06:18, 10.90s/it] 73%|███████▎  | 2812/3837 [8:41:36<3:08:41, 11.05s/it] 73%|███████▎  | 2813/3837 [8:41:47<3:10:28, 11.16s/it] 73%|███████▎  | 2814/3837 [8:41:59<3:12:14, 11.28s/it] 73%|███████▎  | 2815/3837 [8:42:09<3:10:15, 11.17s/it] 73%|███████▎  | 2816/3837 [8:42:19<3:03:29, 10.78s/it] 73%|███████▎  | 2817/3837 [8:42:33<3:15:42, 11.51s/it] 73%|███████▎  | 2818/3837 [8:42:43<3:07:38, 11.05s/it] 73%|███████▎  | 2819/3837 [8:42:54<3:09:47, 11.19s/it] 73%|███████▎  | 2820/3837 [8:43:06<3:11:26, 11.29s/it]                                                       {'loss': 3.5593, 'grad_norm': 14.585554122924805, 'learning_rate': 1.7326626418597986e-06, 'epoch': 0.73}
+ 73%|███████▎  | 2820/3837 [8:43:06<3:11:26, 11.29s/it] 74%|███████▎  | 2821/3837 [8:43:15<3:03:21, 10.83s/it] 74%|███████▎  | 2822/3837 [8:43:27<3:06:14, 11.01s/it] 74%|███████▎  | 2823/3837 [8:43:37<3:01:03, 10.71s/it] 74%|███████▎  | 2824/3837 [8:43:48<3:04:35, 10.93s/it] 74%|███████▎  | 2825/3837 [8:44:00<3:06:54, 11.08s/it] 74%|███████▎  | 2826/3837 [8:44:09<3:00:20, 10.70s/it] 74%|███████▎  | 2827/3837 [8:44:21<3:04:25, 10.96s/it] 74%|███████▎  | 2828/3837 [8:44:32<3:06:06, 11.07s/it] 74%|███████▎  | 2829/3837 [8:44:44<3:07:40, 11.17s/it] 74%|███████▍  | 2830/3837 [8:44:55<3:09:23, 11.28s/it]                                                       {'loss': 3.4138, 'grad_norm': 17.731149673461914, 'learning_rate': 1.7008251183811053e-06, 'epoch': 0.74}
+ 74%|███████▍  | 2830/3837 [8:44:55<3:09:23, 11.28s/it] 74%|███████▍  | 2831/3837 [8:45:07<3:09:59, 11.33s/it] 74%|███████▍  | 2832/3837 [8:45:17<3:02:39, 10.91s/it] 74%|███████▍  | 2833/3837 [8:45:27<2:57:35, 10.61s/it] 74%|███████▍  | 2834/3837 [8:45:38<3:01:58, 10.89s/it] 74%|███████▍  | 2835/3837 [8:45:49<3:04:11, 11.03s/it] 74%|███████▍  | 2836/3837 [8:46:01<3:06:00, 11.15s/it] 74%|███████▍  | 2837/3837 [8:46:11<2:59:09, 10.75s/it] 74%|███████▍  | 2838/3837 [8:46:20<2:53:59, 10.45s/it] 74%|███████▍  | 2839/3837 [8:46:32<2:59:24, 10.79s/it] 74%|███████▍  | 2840/3837 [8:46:44<3:03:21, 11.03s/it]                                                       {'loss': 3.4228, 'grad_norm': 13.647686004638672, 'learning_rate': 1.6692227655757615e-06, 'epoch': 0.74}
+ 74%|███████▍  | 2840/3837 [8:46:44<3:03:21, 11.03s/it] 74%|███████▍  | 2841/3837 [8:46:55<3:05:22, 11.17s/it] 74%|███████▍  | 2842/3837 [8:47:05<2:58:47, 10.78s/it] 74%|███████▍  | 2843/3837 [8:47:17<3:02:05, 10.99s/it] 74%|███████▍  | 2844/3837 [8:47:28<3:03:47, 11.11s/it] 74%|███████▍  | 2845/3837 [8:47:39<3:05:56, 11.25s/it] 74%|███████▍  | 2846/3837 [8:47:49<2:59:06, 10.84s/it] 74%|███████▍  | 2847/3837 [8:48:01<3:02:01, 11.03s/it] 74%|███████▍  | 2848/3837 [8:48:12<3:03:50, 11.15s/it] 74%|███████▍  | 2849/3837 [8:48:22<2:57:10, 10.76s/it] 74%|███████▍  | 2850/3837 [8:48:34<3:00:19, 10.96s/it]                                                       {'loss': 3.4514, 'grad_norm': 15.621156692504883, 'learning_rate': 1.6378578361120444e-06, 'epoch': 0.74}
+ 74%|███████▍  | 2850/3837 [8:48:34<3:00:19, 10.96s/it] 74%|███████▍  | 2851/3837 [8:48:43<2:53:59, 10.59s/it] 74%|███████▍  | 2852/3837 [8:48:56<3:06:46, 11.38s/it] 74%|███████▍  | 2853/3837 [8:49:08<3:06:21, 11.36s/it] 74%|███████▍  | 2854/3837 [8:49:18<2:58:58, 10.92s/it] 74%|███████▍  | 2855/3837 [8:49:29<3:01:38, 11.10s/it] 74%|███████▍  | 2856/3837 [8:49:41<3:02:33, 11.17s/it] 74%|███████▍  | 2857/3837 [8:49:52<3:04:43, 11.31s/it] 74%|███████▍  | 2858/3837 [8:50:04<3:05:04, 11.34s/it] 75%|███████▍  | 2859/3837 [8:50:15<3:05:19, 11.37s/it] 75%|███████▍  | 2860/3837 [8:50:25<2:57:46, 10.92s/it]                                                       {'loss': 3.6202, 'grad_norm': 15.368025779724121, 'learning_rate': 1.606732565734296e-06, 'epoch': 0.75}
+ 75%|███████▍  | 2860/3837 [8:50:25<2:57:46, 10.92s/it] 75%|███████▍  | 2861/3837 [8:50:35<2:52:44, 10.62s/it] 75%|███████▍  | 2862/3837 [8:50:46<2:57:16, 10.91s/it] 75%|███████▍  | 2863/3837 [8:50:58<3:00:47, 11.14s/it] 75%|███████▍  | 2864/3837 [8:51:10<3:02:12, 11.24s/it] 75%|███████▍  | 2865/3837 [8:51:20<2:56:01, 10.87s/it] 75%|███████▍  | 2866/3837 [8:51:29<2:50:43, 10.55s/it] 75%|███████▍  | 2867/3837 [8:51:41<2:55:25, 10.85s/it] 75%|███████▍  | 2868/3837 [8:51:51<2:50:09, 10.54s/it] 75%|███████▍  | 2869/3837 [8:52:02<2:54:43, 10.83s/it] 75%|███████▍  | 2870/3837 [8:52:12<2:49:25, 10.51s/it]                                                       {'loss': 3.4014, 'grad_norm': 11.095398902893066, 'learning_rate': 1.5758491731035618e-06, 'epoch': 0.75}
+ 75%|███████▍  | 2870/3837 [8:52:12<2:49:25, 10.51s/it] 75%|███████▍  | 2871/3837 [8:52:23<2:53:40, 10.79s/it] 75%|███████▍  | 2872/3837 [8:52:35<2:56:13, 10.96s/it] 75%|███████▍  | 2873/3837 [8:52:46<2:59:18, 11.16s/it] 75%|███████▍  | 2874/3837 [8:52:58<3:00:38, 11.25s/it] 75%|███████▍  | 2875/3837 [8:53:09<3:01:45, 11.34s/it] 75%|███████▍  | 2876/3837 [8:53:21<3:02:25, 11.39s/it] 75%|███████▍  | 2877/3837 [8:53:32<3:02:56, 11.43s/it] 75%|███████▌  | 2878/3837 [8:53:44<3:02:54, 11.44s/it] 75%|███████▌  | 2879/3837 [8:53:56<3:03:35, 11.50s/it] 75%|███████▌  | 2880/3837 [8:54:07<3:03:54, 11.53s/it]                                                       {'loss': 3.5584, 'grad_norm': 14.120464324951172, 'learning_rate': 1.5452098596394427e-06, 'epoch': 0.75}
+ 75%|███████▌  | 2880/3837 [8:54:07<3:03:54, 11.53s/it] 75%|███████▌  | 2881/3837 [8:54:19<3:03:43, 11.53s/it] 75%|███████▌  | 2882/3837 [8:54:32<3:11:17, 12.02s/it] 75%|███████▌  | 2883/3837 [8:54:42<3:01:17, 11.40s/it] 75%|███████▌  | 2884/3837 [8:54:52<2:53:27, 10.92s/it] 75%|███████▌  | 2885/3837 [8:55:01<2:48:01, 10.59s/it] 75%|███████▌  | 2886/3837 [8:55:13<2:51:50, 10.84s/it] 75%|███████▌  | 2887/3837 [8:55:23<2:46:40, 10.53s/it] 75%|███████▌  | 2888/3837 [8:55:34<2:51:20, 10.83s/it] 75%|███████▌  | 2889/3837 [8:55:46<2:54:41, 11.06s/it] 75%|███████▌  | 2890/3837 [8:55:57<2:57:02, 11.22s/it]                                                       {'loss': 3.5786, 'grad_norm': 15.765480041503906, 'learning_rate': 1.5148168093631639e-06, 'epoch': 0.75}
+ 75%|███████▌  | 2890/3837 [8:55:57<2:57:02, 11.22s/it] 75%|███████▌  | 2891/3837 [8:56:07<2:50:10, 10.79s/it] 75%|███████▌  | 2892/3837 [8:56:19<2:53:23, 11.01s/it] 75%|███████▌  | 2893/3837 [8:56:28<2:47:09, 10.62s/it] 75%|███████▌  | 2894/3837 [8:56:40<2:50:46, 10.87s/it] 75%|███████▌  | 2895/3837 [8:56:51<2:53:25, 11.05s/it] 75%|███████▌  | 2896/3837 [8:57:01<2:47:45, 10.70s/it] 76%|███████▌  | 2897/3837 [8:57:13<2:51:33, 10.95s/it] 76%|███████▌  | 2898/3837 [8:57:24<2:54:08, 11.13s/it] 76%|███████▌  | 2899/3837 [8:57:34<2:48:14, 10.76s/it] 76%|███████▌  | 2900/3837 [8:57:46<2:51:38, 10.99s/it]                                                       {'loss': 3.333, 'grad_norm': 13.703192710876465, 'learning_rate': 1.4846721887419063e-06, 'epoch': 0.76}
+ 76%|███████▌  | 2900/3837 [8:57:46<2:51:38, 10.99s/it] 76%|███████▌  | 2901/3837 [8:57:57<2:54:25, 11.18s/it] 76%|███████▌  | 2902/3837 [8:58:09<2:55:33, 11.27s/it] 76%|███████▌  | 2903/3837 [8:58:20<2:56:33, 11.34s/it] 76%|███████▌  | 2904/3837 [8:58:30<2:49:15, 10.89s/it] 76%|███████▌  | 2905/3837 [8:58:42<2:52:10, 11.08s/it] 76%|███████▌  | 2906/3837 [8:58:53<2:53:32, 11.18s/it] 76%|███████▌  | 2907/3837 [8:59:05<2:55:39, 11.33s/it] 76%|███████▌  | 2908/3837 [8:59:15<2:48:38, 10.89s/it] 76%|███████▌  | 2909/3837 [8:59:26<2:51:40, 11.10s/it] 76%|███████▌  | 2910/3837 [8:59:38<2:53:27, 11.23s/it]                                                       {'loss': 3.4666, 'grad_norm': 14.422611236572266, 'learning_rate': 1.454778146534368e-06, 'epoch': 0.76}
+ 76%|███████▌  | 2910/3837 [8:59:38<2:53:27, 11.23s/it] 76%|███████▌  | 2911/3837 [8:59:49<2:54:28, 11.31s/it] 76%|███████▌  | 2912/3837 [9:00:01<2:55:15, 11.37s/it] 76%|███████▌  | 2913/3837 [9:00:11<2:48:05, 10.92s/it] 76%|███████▌  | 2914/3837 [9:00:21<2:43:30, 10.63s/it] 76%|███████▌  | 2915/3837 [9:00:31<2:40:03, 10.42s/it] 76%|███████▌  | 2916/3837 [9:00:42<2:44:49, 10.74s/it] 76%|███████▌  | 2917/3837 [9:00:53<2:47:54, 10.95s/it] 76%|███████▌  | 2918/3837 [9:01:05<2:49:55, 11.09s/it] 76%|███████▌  | 2919/3837 [9:01:16<2:51:39, 11.22s/it] 76%|███████▌  | 2920/3837 [9:01:26<2:44:42, 10.78s/it]                                                       {'loss': 3.4863, 'grad_norm': 11.853596687316895, 'learning_rate': 1.4251368136376053e-06, 'epoch': 0.76}
+ 76%|███████▌  | 2920/3837 [9:01:26<2:44:42, 10.78s/it] 76%|███████▌  | 2921/3837 [9:01:36<2:39:57, 10.48s/it] 76%|███████▌  | 2922/3837 [9:01:46<2:37:09, 10.30s/it] 76%|███████▌  | 2923/3837 [9:01:56<2:34:42, 10.16s/it] 76%|███████▌  | 2924/3837 [9:02:07<2:40:45, 10.56s/it] 76%|███████▌  | 2925/3837 [9:02:19<2:44:57, 10.85s/it] 76%|███████▋  | 2926/3837 [9:02:30<2:47:42, 11.05s/it] 76%|███████▋  | 2927/3837 [9:02:43<2:57:03, 11.67s/it] 76%|███████▋  | 2928/3837 [9:02:53<2:48:53, 11.15s/it] 76%|███████▋  | 2929/3837 [9:03:05<2:50:03, 11.24s/it] 76%|███████▋  | 2930/3837 [9:03:15<2:44:09, 10.86s/it]                                                       {'loss': 3.6314, 'grad_norm': 15.993678092956543, 'learning_rate': 1.3957503029351288e-06, 'epoch': 0.76}
+ 76%|███████▋  | 2930/3837 [9:03:15<2:44:09, 10.86s/it] 76%|███████▋  | 2931/3837 [9:03:28<2:54:30, 11.56s/it] 76%|███████▋  | 2932/3837 [9:03:41<3:01:22, 12.02s/it] 76%|███████▋  | 2933/3837 [9:03:51<2:51:08, 11.36s/it] 76%|███████▋  | 2934/3837 [9:04:02<2:51:29, 11.40s/it] 76%|███████▋  | 2935/3837 [9:04:14<2:52:10, 11.45s/it] 77%|███████▋  | 2936/3837 [9:04:25<2:52:46, 11.51s/it] 77%|███████▋  | 2937/3837 [9:04:35<2:44:48, 10.99s/it] 77%|███████▋  | 2938/3837 [9:04:47<2:46:25, 11.11s/it] 77%|███████▋  | 2939/3837 [9:04:56<2:40:16, 10.71s/it] 77%|███████▋  | 2940/3837 [9:05:08<2:43:25, 10.93s/it]                                                       {'loss': 3.543, 'grad_norm': 14.112190246582031, 'learning_rate': 1.3666207091463057e-06, 'epoch': 0.77}
+ 77%|███████▋  | 2940/3837 [9:05:08<2:43:25, 10.93s/it] 77%|███████▋  | 2941/3837 [9:05:18<2:38:29, 10.61s/it] 77%|███████▋  | 2942/3837 [9:05:29<2:42:48, 10.92s/it] 77%|███████▋  | 2943/3837 [9:05:41<2:45:04, 11.08s/it] 77%|███████▋  | 2944/3837 [9:05:51<2:39:30, 10.72s/it] 77%|███████▋  | 2945/3837 [9:06:02<2:42:48, 10.95s/it] 77%|███████▋  | 2946/3837 [9:06:14<2:45:10, 11.12s/it] 77%|███████▋  | 2947/3837 [9:06:25<2:46:50, 11.25s/it] 77%|███████▋  | 2948/3837 [9:06:37<2:47:51, 11.33s/it] 77%|███████▋  | 2949/3837 [9:06:48<2:48:12, 11.36s/it] 77%|███████▋  | 2950/3837 [9:06:58<2:41:21, 10.92s/it]                                                       {'loss': 3.3686, 'grad_norm': 14.038150787353516, 'learning_rate': 1.3377501086770322e-06, 'epoch': 0.77}
+ 77%|███████▋  | 2950/3837 [9:06:58<2:41:21, 10.92s/it] 77%|███████▋  | 2951/3837 [9:07:10<2:43:48, 11.09s/it] 77%|███████▋  | 2952/3837 [9:07:21<2:45:14, 11.20s/it] 77%|███████▋  | 2953/3837 [9:07:31<2:39:03, 10.80s/it] 77%|███████▋  | 2954/3837 [9:07:43<2:42:49, 11.06s/it] 77%|███████▋  | 2955/3837 [9:07:54<2:44:48, 11.21s/it] 77%|███████▋  | 2956/3837 [9:08:04<2:38:17, 10.78s/it] 77%|███████▋  | 2957/3837 [9:08:15<2:40:56, 10.97s/it] 77%|███████▋  | 2958/3837 [9:08:27<2:43:30, 11.16s/it] 77%|███████▋  | 2959/3837 [9:08:38<2:44:41, 11.25s/it] 77%|███████▋  | 2960/3837 [9:08:48<2:38:03, 10.81s/it]                                                       {'loss': 3.3148, 'grad_norm': 9.788325309753418, 'learning_rate': 1.3091405594717348e-06, 'epoch': 0.77}
+ 77%|███████▋  | 2960/3837 [9:08:48<2:38:03, 10.81s/it] 77%|███████▋  | 2961/3837 [9:08:58<2:33:47, 10.53s/it] 77%|███████▋  | 2962/3837 [9:09:08<2:31:00, 10.36s/it] 77%|███████▋  | 2963/3837 [9:09:18<2:28:46, 10.21s/it] 77%|███████▋  | 2964/3837 [9:09:30<2:34:52, 10.64s/it] 77%|███████▋  | 2965/3837 [9:09:39<2:30:56, 10.39s/it] 77%|███���███▋  | 2966/3837 [9:09:51<2:35:43, 10.73s/it] 77%|███████▋  | 2967/3837 [9:10:02<2:39:29, 11.00s/it] 77%|███████▋  | 2968/3837 [9:10:14<2:41:05, 11.12s/it] 77%|███████▋  | 2969/3837 [9:10:25<2:42:26, 11.23s/it] 77%|███████▋  | 2970/3837 [9:10:37<2:43:17, 11.30s/it]                                                       {'loss': 3.3429, 'grad_norm': 12.188491821289062, 'learning_rate': 1.2807941008666668e-06, 'epoch': 0.77}
+ 77%|███████▋  | 2970/3837 [9:10:37<2:43:17, 11.30s/it] 77%|███████▋  | 2971/3837 [9:10:50<2:50:40, 11.82s/it] 77%|███████▋  | 2972/3837 [9:11:01<2:49:16, 11.74s/it] 77%|███████▋  | 2973/3837 [9:11:11<2:40:54, 11.17s/it] 78%|███████▊  | 2974/3837 [9:11:21<2:35:09, 10.79s/it] 78%|███████▊  | 2975/3837 [9:11:33<2:37:38, 10.97s/it] 78%|███████▊  | 2976/3837 [9:11:44<2:39:14, 11.10s/it] 78%|███████▊  | 2977/3837 [9:11:55<2:40:55, 11.23s/it] 78%|███████▊  | 2978/3837 [9:12:05<2:34:30, 10.79s/it] 78%|███████▊  | 2979/3837 [9:12:17<2:37:00, 10.98s/it] 78%|███████▊  | 2980/3837 [9:12:27<2:32:08, 10.65s/it]                                                       {'loss': 3.6177, 'grad_norm': 14.495473861694336, 'learning_rate': 1.2527127534445516e-06, 'epoch': 0.78}
+ 78%|███████▊  | 2980/3837 [9:12:27<2:32:08, 10.65s/it] 78%|███████▊  | 2981/3837 [9:12:38<2:36:23, 10.96s/it] 78%|███████▊  | 2982/3837 [9:12:50<2:38:38, 11.13s/it] 78%|███████▊  | 2983/3837 [9:13:01<2:40:30, 11.28s/it] 78%|███████▊  | 2984/3837 [9:13:11<2:34:07, 10.84s/it] 78%|███████▊  | 2985/3837 [9:13:21<2:29:15, 10.51s/it] 78%|███████▊  | 2986/3837 [9:13:32<2:32:46, 10.77s/it] 78%|███████▊  | 2987/3837 [9:13:44<2:36:38, 11.06s/it] 78%|███████▊  | 2988/3837 [9:13:57<2:44:01, 11.59s/it] 78%|███████▊  | 2989/3837 [9:14:09<2:43:57, 11.60s/it] 78%|███████▊  | 2990/3837 [9:14:18<2:36:22, 11.08s/it]                                                       {'loss': 3.421, 'grad_norm': 15.1799898147583, 'learning_rate': 1.2248985188905404e-06, 'epoch': 0.78}
+ 78%|███████▊  | 2990/3837 [9:14:18<2:36:22, 11.08s/it] 78%|███████▊  | 2991/3837 [9:14:28<2:30:49, 10.70s/it] 78%|███████▊  | 2992/3837 [9:14:38<2:26:38, 10.41s/it] 78%|███████▊  | 2993/3837 [9:14:49<2:30:25, 10.69s/it] 78%|███████▊  | 2994/3837 [9:14:59<2:26:57, 10.46s/it] 78%|███████▊  | 2995/3837 [9:15:11<2:31:04, 10.77s/it] 78%|███████▊  | 2996/3837 [9:15:20<2:26:41, 10.47s/it] 78%|███████▊  | 2997/3837 [9:15:30<2:24:17, 10.31s/it] 78%|███████▊  | 2998/3837 [9:15:40<2:22:07, 10.16s/it] 78%|███████▊  | 2999/3837 [9:15:52<2:28:07, 10.61s/it] 78%|███████▊  | 3000/3837 [9:16:03<2:31:49, 10.88s/it]                                                       {'loss': 3.6812, 'grad_norm': 17.934301376342773, 'learning_rate': 1.1973533798495412e-06, 'epoch': 0.78}
+ 78%|███████▊  | 3000/3837 [9:16:03<2:31:49, 10.88s/it]/home/zhengduo/miniconda3/envs/vgllm2/lib/python3.10/site-packages/torch/utils/checkpoint.py:87: UserWarning: None of the inputs have requires_grad=True. Gradients will be None
+  warnings.warn(
+/home/zhengduo/workspace/vgllm/src/qwen_vl/model/geometry_encoders/vggt_encoder.py:42: FutureWarning: `torch.cuda.amp.autocast(args...)` is deprecated. Please use `torch.amp.autocast('cuda', args...)` instead.
+  with torch.cuda.amp.autocast(dtype=dtype):
+ 78%|███████▊  | 3001/3837 [9:17:41<8:32:47, 36.80s/it] 78%|███████▊  | 3002/3837 [9:17:51<6:39:57, 28.74s/it] 78%|███████▊  | 3003/3837 [9:18:02<5:27:13, 23.54s/it] 78%|███████▊  | 3004/3837 [9:18:12<4:29:48, 19.43s/it] 78%|███████▊  | 3005/3837 [9:18:23<3:56:27, 17.05s/it] 78%|███████▊  | 3006/3837 [9:18:33<3:25:48, 14.86s/it] 78%|███████▊  | 3007/3837 [9:18:45<3:11:49, 13.87s/it] 78%|███████▊  | 3008/3837 [9:18:58<3:09:14, 13.70s/it] 78%|███████▊  | 3009/3837 [9:19:08<2:53:31, 12.57s/it] 78%|███████▊  | 3010/3837 [9:19:18<2:42:51, 11.82s/it]                                                       {'loss': 3.5429, 'grad_norm': 14.297499656677246, 'learning_rate': 1.1700792997848798e-06, 'epoch': 0.78}
+ 78%|███████▊  | 3010/3837 [9:19:18<2:42:51, 11.82s/it] 78%|███████▊  | 3011/3837 [9:19:29<2:41:12, 11.71s/it] 78%|███████▊  | 3012/3837 [9:19:41<2:39:50, 11.62s/it] 79%|███████▊  | 3013/3837 [9:19:52<2:39:42, 11.63s/it] 79%|███████▊  | 3014/3837 [9:20:02<2:32:10, 11.09s/it] 79%|███████▊  | 3015/3837 [9:20:14<2:33:33, 11.21s/it] 79%|███████▊  | 3016/3837 [9:20:27<2:41:26, 11.80s/it] 79%|███████▊  | 3017/3837 [9:20:39<2:40:18, 11.73s/it] 79%|███████▊  | 3018/3837 [9:20:52<2:45:53, 12.15s/it] 79%|███████▊  | 3019/3837 [9:21:03<2:43:03, 11.96s/it] 79%|███████▊  | 3020/3837 [9:21:15<2:40:48, 11.81s/it]                                                       {'loss': 3.6879, 'grad_norm': 15.446012496948242, 'learning_rate': 1.1430782228383535e-06, 'epoch': 0.79}
+ 79%|███████▊  | 3020/3837 [9:21:15<2:40:48, 11.81s/it] 79%|███████▊  | 3021/3837 [9:21:26<2:39:33, 11.73s/it] 79%|███████▉  | 3022/3837 [9:21:38<2:38:31, 11.67s/it] 79%|███████▉  | 3023/3837 [9:21:46<2:24:06, 10.62s/it] 79%|███████▉  | 3024/3837 [9:21:57<2:27:45, 10.90s/it] 79%|███████▉  | 3025/3837 [9:22:07<2:23:51, 10.63s/it] 79%|███████▉  | 3026/3837 [9:22:17<2:20:45, 10.41s/it] 79%|███████▉  | 3027/3837 [9:22:29<2:24:54, 10.73s/it] 79%|███████▉  | 3028/3837 [9:22:40<2:28:22, 11.00s/it] 79%|███████▉  | 3029/3837 [9:22:54<2:37:13, 11.67s/it] 79%|███████▉  | 3030/3837 [9:23:03<2:29:28, 11.11s/it]                                                       {'loss': 3.4111, 'grad_norm': 12.20955753326416, 'learning_rate': 1.1163520736916383e-06, 'epoch': 0.79}
+ 79%|███████▉  | 3030/3837 [9:23:03<2:29:28, 11.11s/it] 79%|███████▉  | 3031/3837 [9:23:13<2:24:15, 10.74s/it] 79%|███████▉  | 3032/3837 [9:23:23<2:20:28, 10.47s/it] 79%|███████▉  | 3033/3837 [9:23:33<2:18:04, 10.30s/it] 79%|███████▉  | 3034/3837 [9:23:45<2:22:40, 10.66s/it] 79%|███████▉  | 3035/3837 [9:23:55<2:19:25, 10.43s/it] 79%|███████▉  | 3036/3837 [9:24:04<2:16:33, 10.23s/it] 79%|███████▉  | 3037/3837 [9:24:16<2:21:45, 10.63s/it] 79%|███████▉  | 3038/3837 [9:24:27<2:24:37, 10.86s/it] 79%|███████▉  | 3039/3837 [9:24:37<2:21:07, 10.61s/it] 79%|███████▉  | 3040/3837 [9:24:49<2:24:49, 10.90s/it]                                                       {'loss': 3.4263, 'grad_norm': 13.675918579101562, 'learning_rate': 1.0899027574291e-06, 'epoch': 0.79}
+ 79%|███████▉  | 3040/3837 [9:24:49<2:24:49, 10.90s/it] 79%|███████▉  | 3041/3837 [9:24:59<2:20:56, 10.62s/it] 79%|███████▉  | 3042/3837 [9:25:10<2:24:38, 10.92s/it] 79%|███████▉  | 3043/3837 [9:25:22<2:26:47, 11.09s/it] 79%|███████▉  | 3044/3837 [9:25:35<2:34:28, 11.69s/it] 79%|███████▉  | 3045/3837 [9:25:45<2:27:09, 11.15s/it] 79%|███████▉  | 3046/3837 [9:25:56<2:28:05, 11.23s/it] 79%|███████▉  | 3047/3837 [9:26:06<2:22:13, 10.80s/it] 79%|███████▉  | 3048/3837 [9:26:16<2:18:09, 10.51s/it] 79%|███████▉  | 3049/3837 [9:26:28<2:22:16, 10.83s/it] 79%|███████▉  | 3050/3837 [9:26:39<2:24:50, 11.04s/it]                                                       {'loss': 3.5549, 'grad_norm': 13.190848350524902, 'learning_rate': 1.0637321594019995e-06, 'epoch': 0.79}
+ 79%|███████▉  | 3050/3837 [9:26:39<2:24:50, 11.04s/it] 80%|███████▉  | 3051/3837 [9:26:49<2:19:42, 10.67s/it] 80%|███████▉  | 3052/3837 [9:27:00<2:23:00, 10.93s/it] 80%|███████▉  | 3053/3837 [9:27:12<2:24:57, 11.09s/it] 80%|███████▉  | 3054/3837 [9:27:23<2:26:44, 11.24s/it] 80%|███████▉  | 3055/3837 [9:27:35<2:27:22, 11.31s/it] 80%|███████▉  | 3056/3837 [9:27:45<2:21:43, 10.89s/it] 80%|███████▉  | 3057/3837 [9:27:58<2:30:00, 11.54s/it] 80%|███████▉  | 3058/3837 [9:28:09<2:29:30, 11.52s/it] 80%|███████▉  | 3059/3837 [9:28:19<2:22:55, 11.02s/it] 80%|███████▉  | 3060/3837 [9:28:31<2:24:22, 11.15s/it]                                                       {'loss': 3.5263, 'grad_norm': 16.32231330871582, 'learning_rate': 1.037842145094094e-06, 'epoch': 0.8}
+ 80%|███████▉  | 3060/3837 [9:28:31<2:24:22, 11.15s/it] 80%|███████▉  | 3061/3837 [9:28:40<2:19:01, 10.75s/it] 80%|███████▉  | 3062/3837 [9:28:52<2:22:19, 11.02s/it] 80%|███████▉  | 3063/3837 [9:29:02<2:17:49, 10.68s/it] 80%|███████▉  | 3064/3837 [9:29:14<2:21:03, 10.95s/it] 80%|███████▉  | 3065/3837 [9:29:23<2:16:25, 10.60s/it] 80%|███████▉  | 3066/3837 [9:29:34<2:15:30, 10.55s/it] 80%|███████▉  | 3067/3837 [9:29:44<2:12:45, 10.35s/it] 80%|███████▉  | 3068/3837 [9:29:55<2:17:28, 10.73s/it] 80%|███████▉  | 3069/3837 [9:30:06<2:18:45, 10.84s/it] 80%|████████  | 3070/3837 [9:30:18<2:20:40, 11.01s/it]                                                       {'loss': 3.4501, 'grad_norm': 16.69465446472168, 'learning_rate': 1.0122345599886708e-06, 'epoch': 0.8}
+ 80%|████████  | 3070/3837 [9:30:18<2:20:40, 11.01s/it] 80%|████████  | 3071/3837 [9:30:29<2:22:40, 11.18s/it] 80%|████████  | 3072/3837 [9:30:41<2:23:48, 11.28s/it] 80%|████████  | 3073/3837 [9:30:51<2:17:58, 10.84s/it] 80%|████████  | 3074/3837 [9:31:02<2:20:09, 11.02s/it] 80%|████████  | 3075/3837 [9:31:14<2:21:50, 11.17s/it] 80%|████████  | 3076/3837 [9:31:23<2:16:31, 10.76s/it] 80%|████████  | 3077/3837 [9:31:35<2:19:18, 11.00s/it] 80%|████████  | 3078/3837 [9:31:46<2:20:43, 11.12s/it] 80%|████████  | 3079/3837 [9:31:58<2:21:48, 11.22s/it] 80%|████████  | 3080/3837 [9:32:09<2:20:57, 11.17s/it]                                                       {'loss': 3.5796, 'grad_norm': 18.10247039794922, 'learning_rate': 9.869112294369881e-07, 'epoch': 0.8}
+ 80%|████████  | 3080/3837 [9:32:09<2:20:57, 11.17s/it] 80%|████████  | 3081/3837 [9:32:20<2:21:58, 11.27s/it] 80%|████████  | 3082/3837 [9:32:32<2:22:18, 11.31s/it] 80%|████████  | 3083/3837 [9:32:45<2:29:10, 11.87s/it] 80%|████████  | 3084/3837 [9:32:57<2:28:03, 11.80s/it] 80%|████████  | 3085/3837 [9:33:08<2:26:57, 11.73s/it] 80%|████████  | 3086/3837 [9:33:20<2:25:49, 11.65s/it] 80%|████████  | 3087/3837 [9:33:30<2:18:48, 11.10s/it] 80%|████████  | 3088/3837 [9:33:41<2:20:02, 11.22s/it] 81%|████████  | 3089/3837 [9:33:51<2:14:38, 10.80s/it] 81%|████████  | 3090/3837 [9:34:02<2:17:03, 11.01s/it]                                                       {'loss': 3.3573, 'grad_norm': 14.562990188598633, 'learning_rate': 9.618739585281734e-07, 'epoch': 0.81}
+ 81%|████████  | 3090/3837 [9:34:02<2:17:03, 11.01s/it] 81%|████████  | 3091/3837 [9:34:14<2:18:37, 11.15s/it] 81%|████████  | 3092/3837 [9:34:25<2:19:29, 11.23s/it] 81%|████████  | 3093/3837 [9:34:37<2:20:27, 11.33s/it] 81%|████████  | 3094/3837 [9:34:47<2:14:44, 10.88s/it] 81%|████████  | 3095/3837 [9:34:56<2:10:49, 10.58s/it] 81%|████████  | 3096/3837 [9:35:06<2:07:47, 10.35s/it] 81%|████████  | 3097/3837 [9:35:18<2:12:07, 10.71s/it] 81%|████████  | 3098/3837 [9:35:29<2:14:55, 10.95s/it] 81%|████████  | 3099/3837 [9:35:39<2:10:24, 10.60s/it] 81%|████████  | 3100/3837 [9:35:51<2:13:57, 10.91s/it]                                                       {'loss': 3.3424, 'grad_norm': 14.317696571350098, 'learning_rate': 9.371245319605404e-07, 'epoch': 0.81}
+ 81%|████████  | 3100/3837 [9:35:51<2:13:57, 10.91s/it] 81%|████████  | 3101/3837 [9:36:02<2:16:04, 11.09s/it] 81%|████████  | 3102/3837 [9:36:12<2:11:12, 10.71s/it] 81%|████████  | 3103/3837 [9:36:24<2:14:12, 10.97s/it] 81%|████████  | 3104/3837 [9:36:34<2:10:03, 10.65s/it] 81%|████████  | 3105/3837 [9:36:45<2:12:50, 10.89s/it] 81%|████████  | 3106/3837 [9:36:57<2:14:52, 11.07s/it] 81%|████████  | 3107/3837 [9:37:10<2:22:15, 11.69s/it] 81%|████████  | 3108/3837 [9:37:21<2:21:27, 11.64s/it] 81%|████████  | 3109/3837 [9:37:33<2:20:44, 11.60s/it] 81%|████████  | 3110/3837 [9:37:44<2:20:30, 11.60s/it]                                                       {'loss': 3.4635, 'grad_norm': 12.70585823059082, 'learning_rate': 9.126647139143857e-07, 'epoch': 0.81}
+ 81%|████████  | 3110/3837 [9:37:44<2:20:30, 11.60s/it] 81%|████████  | 3111/3837 [9:37:54<2:13:41, 11.05s/it] 81%|████████  | 3112/3837 [9:38:06<2:15:09, 11.19s/it] 81%|████████  | 3113/3837 [9:38:17<2:15:49, 11.26s/it] 81%|████████  | 3114/3837 [9:38:27<2:10:06, 10.80s/it] 81%|████████  | 3115/3837 [9:38:40<2:18:21, 11.50s/it] 81%|████████  | 3116/3837 [9:38:51<2:18:15, 11.51s/it] 81%|████████  | 3117/3837 [9:39:03<2:17:46, 11.48s/it] 81%|████████▏ | 3118/3837 [9:39:14<2:17:39, 11.49s/it] 81%|████████▏ | 3119/3837 [9:39:26<2:17:12, 11.47s/it] 81%|████████▏ | 3120/3837 [9:39:37<2:16:53, 11.46s/it]                                                       {'loss': 3.5435, 'grad_norm': 15.492018699645996, 'learning_rate': 8.884962479262227e-07, 'epoch': 0.81}
+ 81%|████████▏ | 3120/3837 [9:39:37<2:16:53, 11.46s/it] 81%|████████▏ | 3121/3837 [9:39:47<2:10:55, 10.97s/it] 81%|████████▏ | 3122/3837 [9:39:59<2:12:59, 11.16s/it] 81%|████████▏ | 3123/3837 [9:40:10<2:14:17, 11.29s/it] 81%|████████▏ | 3124/3837 [9:40:22<2:15:10, 11.37s/it] 81%|████████▏ | 3125/3837 [9:40:33<2:15:50, 11.45s/it] 81%|████████▏ | 3126/3837 [9:40:43<2:09:45, 10.95s/it] 81%|████████▏ | 3127/3837 [9:40:55<2:11:39, 11.13s/it] 82%|████████▏ | 3128/3837 [9:41:06<2:12:42, 11.23s/it] 82%|████████▏ | 3129/3837 [9:41:16<2:07:44, 10.82s/it] 82%|████████▏ | 3130/3837 [9:41:26<2:04:21, 10.55s/it]                                                       {'loss': 3.4005, 'grad_norm': 14.00477409362793, 'learning_rate': 8.646208567645109e-07, 'epoch': 0.82}
+ 82%|████████▏ | 3130/3837 [9:41:26<2:04:21, 10.55s/it] 82%|████████▏ | 3131/3837 [9:41:39<2:13:24, 11.34s/it] 82%|████████▏ | 3132/3837 [9:41:51<2:13:53, 11.39s/it] 82%|████████▏ | 3133/3837 [9:42:02<2:14:09, 11.43s/it] 82%|████████▏ | 3134/3837 [9:42:14<2:13:48, 11.42s/it] 82%|████████▏ | 3135/3837 [9:42:25<2:13:58, 11.45s/it] 82%|████████▏ | 3136/3837 [9:42:35<2:08:14, 10.98s/it] 82%|████████▏ | 3137/3837 [9:42:46<2:09:35, 11.11s/it] 82%|████████▏ | 3138/3837 [9:42:58<2:11:02, 11.25s/it] 82%|████████▏ | 3139/3837 [9:43:09<2:11:34, 11.31s/it] 82%|████████▏ | 3140/3837 [9:43:22<2:17:31, 11.84s/it]                                                       {'loss': 3.5322, 'grad_norm': 16.292644500732422, 'learning_rate': 8.410402423068448e-07, 'epoch': 0.82}
+ 82%|████████▏ | 3140/3837 [9:43:22<2:17:31, 11.84s/it] 82%|████████▏ | 3141/3837 [9:43:32<2:10:20, 11.24s/it] 82%|████████▏ | 3142/3837 [9:43:44<2:11:22, 11.34s/it] 82%|████████▏ | 3143/3837 [9:43:56<2:12:06, 11.42s/it] 82%|████████▏ | 3144/3837 [9:44:07<2:12:19, 11.46s/it] 82%|████████▏ | 3145/3837 [9:44:19<2:12:24, 11.48s/it] 82%|████████▏ | 3146/3837 [9:44:28<2:06:31, 10.99s/it] 82%|████████▏ | 3147/3837 [9:44:40<2:07:54, 11.12s/it] 82%|████████▏ | 3148/3837 [9:44:51<2:09:03, 11.24s/it] 82%|████████▏ | 3149/3837 [9:45:05<2:15:34, 11.82s/it] 82%|████████▏ | 3150/3837 [9:45:16<2:14:05, 11.71s/it]                                                       {'loss': 3.4093, 'grad_norm': 15.230997085571289, 'learning_rate': 8.177560854186473e-07, 'epoch': 0.82}
+ 82%|████████▏ | 3150/3837 [9:45:16<2:14:05, 11.71s/it] 82%|████████▏ | 3151/3837 [9:45:28<2:13:26, 11.67s/it] 82%|████████▏ | 3152/3837 [9:45:39<2:12:13, 11.58s/it] 82%|████████▏ | 3153/3837 [9:45:50<2:11:43, 11.56s/it] 82%|████████▏ | 3154/3837 [9:46:02<2:11:33, 11.56s/it] 82%|████████▏ | 3155/3837 [9:46:12<2:05:28, 11.04s/it] 82%|████████▏ | 3156/3837 [9:46:23<2:06:41, 11.16s/it] 82%|████████▏ | 3157/3837 [9:46:35<2:07:50, 11.28s/it] 82%|████████▏ | 3158/3837 [9:46:48<2:13:56, 11.84s/it] 82%|████████▏ | 3159/3837 [9:46:59<2:12:25, 11.72s/it] 82%|████████▏ | 3160/3837 [9:47:09<2:05:29, 11.12s/it]                                                       {'loss': 3.4979, 'grad_norm': 14.827224731445312, 'learning_rate': 7.947700458333507e-07, 'epoch': 0.82}
+ 82%|████████▏ | 3160/3837 [9:47:09<2:05:29, 11.12s/it] 82%|████████▏ | 3161/3837 [9:47:21<2:06:35, 11.24s/it] 82%|████████▏ | 3162/3837 [9:47:32<2:07:12, 11.31s/it] 82%|████████▏ | 3163/3837 [9:47:44<2:07:26, 11.35s/it] 82%|████████▏ | 3164/3837 [9:47:55<2:07:47, 11.39s/it] 82%|████████▏ | 3165/3837 [9:48:06<2:07:38, 11.40s/it] 83%|████████▎ | 3166/3837 [9:48:18<2:07:52, 11.43s/it] 83%|████████▎ | 3167/3837 [9:48:29<2:07:33, 11.42s/it] 83%|████████▎ | 3168/3837 [9:48:41<2:07:32, 11.44s/it] 83%|████████▎ | 3169/3837 [9:48:51<2:02:23, 10.99s/it] 83%|████████▎ | 3170/3837 [9:49:01<1:58:06, 10.62s/it]                                                       {'loss': 3.5504, 'grad_norm': 12.555737495422363, 'learning_rate': 7.720837620340932e-07, 'epoch': 0.83}
+ 83%|████████▎ | 3170/3837 [9:49:01<1:58:06, 10.62s/it] 83%|████████▎ | 3171/3837 [9:49:10<1:55:34, 10.41s/it] 83%|████████▎ | 3172/3837 [9:49:22<1:58:58, 10.73s/it] 83%|████████▎ | 3173/3837 [9:49:32<1:55:39, 10.45s/it] 83%|██���█████▎ | 3174/3837 [9:49:45<2:04:23, 11.26s/it] 83%|████████▎ | 3175/3837 [9:49:55<1:59:58, 10.87s/it] 83%|████████▎ | 3176/3837 [9:50:06<2:01:44, 11.05s/it] 83%|████████▎ | 3177/3837 [9:50:19<2:08:22, 11.67s/it] 83%|████████▎ | 3178/3837 [9:50:31<2:07:35, 11.62s/it] 83%|████████▎ | 3179/3837 [9:50:42<2:06:40, 11.55s/it] 83%|████████▎ | 3180/3837 [9:50:54<2:06:00, 11.51s/it]                                                       {'loss': 3.4964, 'grad_norm': 15.211166381835938, 'learning_rate': 7.496988511369174e-07, 'epoch': 0.83}
+ 83%|████████▎ | 3180/3837 [9:50:54<2:06:00, 11.51s/it] 83%|████████▎ | 3181/3837 [9:51:07<2:11:02, 11.99s/it] 83%|████████▎ | 3182/3837 [9:51:17<2:03:33, 11.32s/it] 83%|████████▎ | 3183/3837 [9:51:28<2:04:00, 11.38s/it] 83%|████████▎ | 3184/3837 [9:51:40<2:04:18, 11.42s/it] 83%|████████▎ | 3185/3837 [9:51:49<1:58:46, 10.93s/it] 83%|████████▎ | 3186/3837 [9:52:01<2:00:20, 11.09s/it] 83%|████████▎ | 3187/3837 [9:52:12<2:01:14, 11.19s/it] 83%|████████▎ | 3188/3837 [9:52:24<2:02:36, 11.33s/it] 83%|████████▎ | 3189/3837 [9:52:36<2:03:04, 11.40s/it] 83%|████████▎ | 3190/3837 [9:52:49<2:08:21, 11.90s/it]                                                       {'loss': 3.4433, 'grad_norm': 15.974442481994629, 'learning_rate': 7.276169087755098e-07, 'epoch': 0.83}
+ 83%|████████▎ | 3190/3837 [9:52:49<2:08:21, 11.90s/it] 83%|████████▎ | 3191/3837 [9:53:00<2:06:45, 11.77s/it] 83%|████████▎ | 3192/3837 [9:53:12<2:05:40, 11.69s/it] 83%|████████▎ | 3193/3837 [9:53:22<2:00:06, 11.19s/it] 83%|████████▎ | 3194/3837 [9:53:31<1:55:30, 10.78s/it] 83%|████████▎ | 3195/3837 [9:53:41<1:51:56, 10.46s/it] 83%|████████▎ | 3196/3837 [9:53:53<1:54:34, 10.72s/it] 83%|████████▎ | 3197/3837 [9:54:02<1:51:35, 10.46s/it] 83%|████████▎ | 3198/3837 [9:54:14<1:54:39, 10.77s/it] 83%|████████▎ | 3199/3837 [9:54:25<1:56:59, 11.00s/it] 83%|████████▎ | 3200/3837 [9:54:37<1:58:17, 11.14s/it]                                                       {'loss': 3.4431, 'grad_norm': 19.52552604675293, 'learning_rate': 7.058395089874492e-07, 'epoch': 0.83}
+ 83%|████████▎ | 3200/3837 [9:54:37<1:58:17, 11.14s/it] 83%|████████▎ | 3201/3837 [9:54:49<1:59:46, 11.30s/it] 83%|████████▎ | 3202/3837 [9:55:00<2:00:08, 11.35s/it] 83%|████████▎ | 3203/3837 [9:55:10<1:55:47, 10.96s/it] 84%|████████▎ | 3204/3837 [9:55:20<1:52:23, 10.65s/it] 84%|████████▎ | 3205/3837 [9:55:30<1:50:10, 10.46s/it] 84%|████████▎ | 3206/3837 [9:55:40<1:48:23, 10.31s/it] 84%|████████▎ | 3207/3837 [9:55:51<1:52:10, 10.68s/it] 84%|████████▎ | 3208/3837 [9:56:03<1:54:37, 10.93s/it] 84%|████████▎ | 3209/3837 [9:56:14<1:56:06, 11.09s/it] 84%|████████▎ | 3210/3837 [9:56:24<1:52:17, 10.75s/it]                                                       {'loss': 3.393, 'grad_norm': 13.694509506225586, 'learning_rate': 6.843682041020183e-07, 'epoch': 0.84}
+ 84%|████████▎ | 3210/3837 [9:56:24<1:52:17, 10.75s/it] 84%|████████▎ | 3211/3837 [9:56:36<1:54:57, 11.02s/it] 84%|████████▎ | 3212/3837 [9:56:46<1:51:10, 10.67s/it] 84%|████████▎ | 3213/3837 [9:56:56<1:48:18, 10.41s/it] 84%|████████▍ | 3214/3837 [9:57:07<1:51:36, 10.75s/it] 84%|████████▍ | 3215/3837 [9:57:19<1:53:39, 10.96s/it] 84%|████████▍ | 3216/3837 [9:57:30<1:54:48, 11.09s/it] 84%|████████▍ | 3217/3837 [9:57:42<1:55:53, 11.22s/it] 84%|████████▍ | 3218/3837 [9:57:53<1:56:35, 11.30s/it] 84%|████████▍ | 3219/3837 [9:58:05<1:56:53, 11.35s/it] 84%|████████▍ | 3220/3837 [9:58:16<1:56:57, 11.37s/it]                                                       {'loss': 3.3117, 'grad_norm': 13.908066749572754, 'learning_rate': 6.632045246295454e-07, 'epoch': 0.84}
+ 84%|████████▍ | 3220/3837 [9:58:16<1:56:57, 11.37s/it] 84%|████████▍ | 3221/3837 [9:58:27<1:56:56, 11.39s/it] 84%|████████▍ | 3222/3837 [9:58:39<1:57:29, 11.46s/it] 84%|████████▍ | 3223/3837 [9:58:52<2:02:35, 11.98s/it] 84%|████████▍ | 3224/3837 [9:59:02<1:55:34, 11.31s/it] 84%|████████▍ | 3225/3837 [9:59:12<1:50:47, 10.86s/it] 84%|████████▍ | 3226/3837 [9:59:23<1:52:19, 11.03s/it] 84%|███████���▍ | 3227/3837 [9:59:35<1:53:29, 11.16s/it] 84%|████████▍ | 3228/3837 [9:59:48<1:59:18, 11.75s/it] 84%|████████▍ | 3229/3837 [10:00:00<1:58:51, 11.73s/it] 84%|████████▍ | 3230/3837 [10:00:11<1:58:13, 11.69s/it]                                                        {'loss': 3.4593, 'grad_norm': 15.066481590270996, 'learning_rate': 6.423499791523047e-07, 'epoch': 0.84}
+ 84%|████████▍ | 3230/3837 [10:00:11<1:58:13, 11.69s/it] 84%|████████▍ | 3231/3837 [10:00:23<1:57:18, 11.62s/it] 84%|████████▍ | 3232/3837 [10:00:34<1:56:21, 11.54s/it] 84%|████████▍ | 3233/3837 [10:00:47<2:01:06, 12.03s/it] 84%|████████▍ | 3234/3837 [10:00:57<1:54:08, 11.36s/it] 84%|████████▍ | 3235/3837 [10:01:08<1:54:22, 11.40s/it] 84%|████████▍ | 3236/3837 [10:01:18<1:50:04, 10.99s/it] 84%|████████▍ | 3237/3837 [10:01:28<1:46:49, 10.68s/it] 84%|████████▍ | 3238/3837 [10:01:40<1:49:25, 10.96s/it] 84%|████████▍ | 3239/3837 [10:01:53<1:55:57, 11.63s/it] 84%|████████▍ | 3240/3837 [10:02:03<1:50:18, 11.09s/it]                                                        {'loss': 3.6252, 'grad_norm': 15.917520523071289, 'learning_rate': 6.21806054216989e-07, 'epoch': 0.84}
+ 84%|████████▍ | 3240/3837 [10:02:03<1:50:18, 11.09s/it] 84%|████████▍ | 3241/3837 [10:02:14<1:51:13, 11.20s/it] 84%|████████▍ | 3242/3837 [10:02:24<1:46:58, 10.79s/it] 85%|████████▍ | 3243/3837 [10:02:34<1:44:23, 10.54s/it] 85%|████████▍ | 3244/3837 [10:02:46<1:47:14, 10.85s/it] 85%|████████▍ | 3245/3837 [10:02:57<1:48:43, 11.02s/it] 85%|████████▍ | 3246/3837 [10:03:07<1:45:02, 10.66s/it] 85%|████████▍ | 3247/3837 [10:03:20<1:52:00, 11.39s/it] 85%|████████▍ | 3248/3837 [10:03:32<1:52:28, 11.46s/it] 85%|████████▍ | 3249/3837 [10:03:42<1:47:37, 10.98s/it] 85%|████████▍ | 3250/3837 [10:03:53<1:48:49, 11.12s/it]                                                        {'loss': 3.4254, 'grad_norm': 14.044636726379395, 'learning_rate': 6.015742142287378e-07, 'epoch': 0.85}
+ 85%|████████▍ | 3250/3837 [10:03:53<1:48:49, 11.12s/it] 85%|████████▍ | 3251/3837 [10:04:05<1:49:53, 11.25s/it] 85%|████████▍ | 3252/3837 [10:04:16<1:50:23, 11.32s/it] 85%|████████▍ | 3253/3837 [10:04:28<1:50:46, 11.38s/it] 85%|████████▍ | 3254/3837 [10:04:38<1:47:05, 11.02s/it] 85%|████████▍ | 3255/3837 [10:04:48<1:43:50, 10.71s/it] 85%|████████▍ | 3256/3837 [10:04:58<1:40:55, 10.42s/it] 85%|████████▍ | 3257/3837 [10:05:07<1:38:45, 10.22s/it] 85%|████████▍ | 3258/3837 [10:05:19<1:42:01, 10.57s/it] 85%|████████▍ | 3259/3837 [10:05:30<1:44:16, 10.82s/it] 85%|████████▍ | 3260/3837 [10:05:42<1:45:41, 10.99s/it]                                                        {'loss': 3.3669, 'grad_norm': 12.949217796325684, 'learning_rate': 5.816559013467605e-07, 'epoch': 0.85}
+ 85%|████████▍ | 3260/3837 [10:05:42<1:45:41, 10.99s/it] 85%|████████▍ | 3261/3837 [10:05:51<1:42:34, 10.68s/it] 85%|████████▌ | 3262/3837 [10:06:01<1:40:01, 10.44s/it] 85%|████████▌ | 3263/3837 [10:06:11<1:38:08, 10.26s/it] 85%|████████▌ | 3264/3837 [10:06:23<1:41:20, 10.61s/it] 85%|████████▌ | 3265/3837 [10:06:33<1:39:11, 10.40s/it] 85%|████████▌ | 3266/3837 [10:06:42<1:37:09, 10.21s/it] 85%|████████▌ | 3267/3837 [10:06:54<1:40:21, 10.56s/it] 85%|████████▌ | 3268/3837 [10:07:05<1:42:53, 10.85s/it] 85%|████████▌ | 3269/3837 [10:07:17<1:44:56, 11.08s/it] 85%|████████▌ | 3270/3837 [10:07:28<1:45:49, 11.20s/it]                                                        {'loss': 3.4006, 'grad_norm': 12.033577919006348, 'learning_rate': 5.620525353815292e-07, 'epoch': 0.85}
+ 85%|████████▌ | 3270/3837 [10:07:28<1:45:49, 11.20s/it] 85%|████████▌ | 3271/3837 [10:07:40<1:46:56, 11.34s/it] 85%|████████▌ | 3272/3837 [10:07:52<1:47:18, 11.40s/it] 85%|████████▌ | 3273/3837 [10:08:03<1:47:25, 11.43s/it] 85%|████████▌ | 3274/3837 [10:08:14<1:47:10, 11.42s/it] 85%|████████▌ | 3275/3837 [10:08:26<1:47:12, 11.45s/it] 85%|████████▌ | 3276/3837 [10:08:37<1:47:02, 11.45s/it] 85%|████████▌ | 3277/3837 [10:08:49<1:46:56, 11.46s/it] 85%|████████▌ | 3278/3837 [10:09:00<1:46:58, 11.48s/it] 85%|████████▌ | 3279/3837 [10:09:12<1:46:45, 11.48s/it] 85%|████████▌ | 3280/3837 [10:09:23<1:46:36, 11.48s/it]                                                        {'loss': 3.5475, 'grad_norm': 15.906982421875, 'learning_rate': 5.427655136935805e-07, 'epoch': 0.85}
+ 85%|████████▌ | 3280/3837 [10:09:23<1:46:36, 11.48s/it] 86%|████████▌ | 3281/3837 [10:09:33<1:42:00, 11.01s/it] 86%|████████▌ | 3282/3837 [10:09:44<1:41:26, 10.97s/it] 86%|████████▌ | 3283/3837 [10:09:56<1:42:23, 11.09s/it] 86%|████████▌ | 3284/3837 [10:10:07<1:43:26, 11.22s/it] 86%|████████▌ | 3285/3837 [10:10:19<1:44:01, 11.31s/it] 86%|████████▌ | 3286/3837 [10:10:30<1:44:21, 11.36s/it] 86%|████████▌ | 3287/3837 [10:10:41<1:44:19, 11.38s/it] 86%|████████▌ | 3288/3837 [10:10:53<1:44:46, 11.45s/it] 86%|████████▌ | 3289/3837 [10:11:05<1:44:56, 11.49s/it] 86%|████████▌ | 3290/3837 [10:11:18<1:49:12, 11.98s/it]                                                        {'loss': 3.4749, 'grad_norm': 16.381826400756836, 'learning_rate': 5.237962110938998e-07, 'epoch': 0.86}
+ 86%|████████▌ | 3290/3837 [10:11:18<1:49:12, 11.98s/it] 86%|████████▌ | 3291/3837 [10:11:29<1:47:44, 11.84s/it] 86%|████████▌ | 3292/3837 [10:11:41<1:46:31, 11.73s/it] 86%|████████▌ | 3293/3837 [10:11:52<1:46:03, 11.70s/it] 86%|████████▌ | 3294/3837 [10:12:04<1:45:52, 11.70s/it] 86%|████████▌ | 3295/3837 [10:12:16<1:44:58, 11.62s/it] 86%|████████▌ | 3296/3837 [10:12:26<1:40:21, 11.13s/it] 86%|████████▌ | 3297/3837 [10:12:37<1:40:55, 11.21s/it] 86%|████████▌ | 3298/3837 [10:12:47<1:36:47, 10.78s/it] 86%|████████▌ | 3299/3837 [10:12:56<1:33:57, 10.48s/it] 86%|████████▌ | 3300/3837 [10:13:08<1:36:38, 10.80s/it]                                                        {'loss': 3.2448, 'grad_norm': 14.224139213562012, 'learning_rate': 5.051459797459296e-07, 'epoch': 0.86}
+ 86%|████████▌ | 3300/3837 [10:13:08<1:36:38, 10.80s/it] 86%|████████▌ | 3301/3837 [10:13:20<1:38:28, 11.02s/it] 86%|████████▌ | 3302/3837 [10:13:29<1:35:12, 10.68s/it] 86%|████████▌ | 3303/3837 [10:13:40<1:35:48, 10.77s/it] 86%|████████▌ | 3304/3837 [10:13:52<1:37:39, 10.99s/it] 86%|████████▌ | 3305/3837 [10:14:03<1:38:50, 11.15s/it] 86%|████████▌ | 3306/3837 [10:14:15<1:39:27, 11.24s/it] 86%|████████▌ | 3307/3837 [10:14:25<1:35:34, 10.82s/it] 86%|████████▌ | 3308/3837 [10:14:33<1:28:13, 10.01s/it] 86%|████████▌ | 3309/3837 [10:14:43<1:27:37,  9.96s/it] 86%|████████▋ | 3310/3837 [10:14:54<1:31:43, 10.44s/it]                                                        {'loss': 3.2814, 'grad_norm': 15.212875366210938, 'learning_rate': 4.868161490691848e-07, 'epoch': 0.86}
+ 86%|████████▋ | 3310/3837 [10:14:54<1:31:43, 10.44s/it] 86%|████████▋ | 3311/3837 [10:15:06<1:34:12, 10.75s/it] 86%|████████▋ | 3312/3837 [10:15:17<1:35:48, 10.95s/it] 86%|████████▋ | 3313/3837 [10:15:27<1:32:34, 10.60s/it] 86%|████████▋ | 3314/3837 [10:15:38<1:34:36, 10.85s/it] 86%|████████▋ | 3315/3837 [10:15:50<1:36:16, 11.07s/it] 86%|████████▋ | 3316/3837 [10:16:00<1:33:05, 10.72s/it] 86%|████████▋ | 3317/3837 [10:16:10<1:30:22, 10.43s/it] 86%|████████▋ | 3318/3837 [10:16:21<1:32:47, 10.73s/it] 86%|████████▋ | 3319/3837 [10:16:34<1:38:53, 11.46s/it] 87%|████████▋ | 3320/3837 [10:16:44<1:34:38, 10.98s/it]                                                        {'loss': 3.2083, 'grad_norm': 13.000926971435547, 'learning_rate': 4.688080256444827e-07, 'epoch': 0.87}
+ 87%|████████▋ | 3320/3837 [10:16:44<1:34:38, 10.98s/it] 87%|████████▋ | 3321/3837 [10:16:55<1:35:29, 11.10s/it] 87%|████████▋ | 3322/3837 [10:17:07<1:36:18, 11.22s/it] 87%|████████▋ | 3323/3837 [10:17:17<1:32:56, 10.85s/it] 87%|████████▋ | 3324/3837 [10:17:27<1:29:41, 10.49s/it] 87%|████████▋ | 3325/3837 [10:17:38<1:31:50, 10.76s/it] 87%|████████▋ | 3326/3837 [10:17:49<1:33:21, 10.96s/it] 87%|████████▋ | 3327/3837 [10:17:59<1:30:10, 10.61s/it] 87%|████████▋ | 3328/3837 [10:18:09<1:28:10, 10.39s/it] 87%|████████▋ | 3329/3837 [10:18:19<1:26:19, 10.20s/it] 87%|████████▋ | 3330/3837 [10:18:30<1:29:15, 10.56s/it]                                                        {'loss': 3.2162, 'grad_norm': 14.853813171386719, 'learning_rate': 4.5112289312081834e-07, 'epoch': 0.87}
+ 87%|████████▋ | 3330/3837 [10:18:30<1:29:15, 10.56s/it] 87%|████████▋ | 3331/3837 [10:18:42<1:31:40, 10.87s/it] 87%|████████▋ | 3332/3837 [10:18:52<1:29:02, 10.58s/it] 87%|████████▋ | 3333/3837 [10:19:02<1:27:15, 10.39s/it] 87%|████████▋ | 3334/3837 [10:19:13<1:29:47, 10.71s/it] 87%|████████▋ | 3335/3837 [10:19:24<1:31:16, 10.91s/it] 87%|████████▋ | 3336/3837 [10:19:36<1:32:37, 11.09s/it] 87%|████████▋ | 3337/3837 [10:19:47<1:33:13, 11.19s/it] 87%|████████▋ | 3338/3837 [10:19:59<1:33:41, 11.27s/it] 87%|████████▋ | 3339/3837 [10:20:12<1:38:09, 11.83s/it] 87%|████████▋ | 3340/3837 [10:20:24<1:37:16, 11.74s/it]                                                        {'loss': 3.4829, 'grad_norm': 15.472539901733398, 'learning_rate': 4.3376201212385393e-07, 'epoch': 0.87}
+ 87%|████████▋ | 3340/3837 [10:20:24<1:37:16, 11.74s/it] 87%|████████▋ | 3341/3837 [10:20:35<1:36:13, 11.64s/it] 87%|████████▋ | 3342/3837 [10:20:48<1:39:58, 12.12s/it] 87%|████████▋ | 3343/3837 [10:21:00<1:38:31, 11.97s/it] 87%|████████▋ | 3344/3837 [10:21:09<1:32:43, 11.29s/it] 87%|████████▋ | 3345/3837 [10:21:21<1:33:05, 11.35s/it] 87%|████████▋ | 3346/3837 [10:21:32<1:32:15, 11.27s/it] 87%|████████▋ | 3347/3837 [10:21:42<1:28:04, 10.78s/it] 87%|████████▋ | 3348/3837 [10:21:52<1:25:35, 10.50s/it] 87%|████████▋ | 3349/3837 [10:22:03<1:27:50, 10.80s/it] 87%|████████▋ | 3350/3837 [10:22:14<1:29:09, 10.98s/it]                                                        {'loss': 3.3972, 'grad_norm': 21.189714431762695, 'learning_rate': 4.167266201660636e-07, 'epoch': 0.87}
+ 87%|████████▋ | 3350/3837 [10:22:14<1:29:09, 10.98s/it] 87%|████████▋ | 3351/3837 [10:22:24<1:26:13, 10.64s/it] 87%|████████▋ | 3352/3837 [10:22:34<1:24:01, 10.39s/it] 87%|████████▋ | 3353/3837 [10:22:46<1:27:05, 10.80s/it] 87%|████████▋ | 3354/3837 [10:22:56<1:24:25, 10.49s/it] 87%|████████▋ | 3355/3837 [10:23:05<1:22:35, 10.28s/it] 87%|████████▋ | 3356/3837 [10:23:17<1:25:32, 10.67s/it] 87%|████████▋ | 3357/3837 [10:23:27<1:23:30, 10.44s/it] 88%|████████▊ | 3358/3837 [10:23:38<1:25:58, 10.77s/it] 88%|████████▊ | 3359/3837 [10:23:50<1:27:21, 10.97s/it] 88%|████████▊ | 3360/3837 [10:24:00<1:24:17, 10.60s/it]                                                        {'loss': 3.2157, 'grad_norm': 13.189949035644531, 'learning_rate': 4.0001793155852396e-07, 'epoch': 0.88}
+ 88%|████████▊ | 3360/3837 [10:24:00<1:24:17, 10.60s/it] 88%|████████▊ | 3361/3837 [10:24:11<1:26:20, 10.88s/it] 88%|████████▊ | 3362/3837 [10:24:21<1:23:31, 10.55s/it] 88%|████████▊ | 3363/3837 [10:24:32<1:25:23, 10.81s/it] 88%|████████▊ | 3364/3837 [10:24:42<1:23:02, 10.53s/it] 88%|████████▊ | 3365/3837 [10:24:54<1:25:12, 10.83s/it] 88%|████████▊ | 3366/3837 [10:25:07<1:30:30, 11.53s/it] 88%|████████▊ | 3367/3837 [10:25:18<1:30:03, 11.50s/it] 88%|████████▊ | 3368/3837 [10:25:28<1:26:09, 11.02s/it] 88%|████████▊ | 3369/3837 [10:25:40<1:26:56, 11.15s/it] 88%|████████▊ | 3370/3837 [10:25:51<1:27:35, 11.25s/it]                                                        {'loss': 3.4225, 'grad_norm': 11.203957557678223, 'learning_rate': 3.8363713732435084e-07, 'epoch': 0.88}
+ 88%|████████▊ | 3370/3837 [10:25:51<1:27:35, 11.25s/it] 88%|████████▊ | 3371/3837 [10:26:03<1:28:06, 11.34s/it] 88%|████████▊ | 3372/3837 [10:26:13<1:24:25, 10.89s/it] 88%|████████▊ | 3373/3837 [10:26:24<1:25:32, 11.06s/it] 88%|████████▊ | 3374/3837 [10:26:36<1:26:19, 11.19s/it] 88%|████████▊ | 3375/3837 [10:26:45<1:22:48, 10.76s/it] 88%|████████▊ | 3376/3837 [10:26:55<1:20:46, 10.51s/it] 88%|████████▊ | 3377/3837 [10:27:05<1:19:04, 10.31s/it] 88%|████████▊ | 3378/3837 [10:27:15<1:17:49, 10.17s/it] 88%|████████▊ | 3379/3837 [10:27:26<1:20:43, 10.57s/it] 88%|████████▊ | 3380/3837 [10:27:38<1:22:36, 10.85s/it]                                                        {'loss': 3.348, 'grad_norm': 14.881497383117676, 'learning_rate': 3.6758540511380505e-07, 'epoch': 0.88}
+ 88%|████████▊ | 3380/3837 [10:27:38<1:22:36, 10.85s/it] 88%|███���████▊ | 3381/3837 [10:27:49<1:23:52, 11.04s/it] 88%|████████▊ | 3382/3837 [10:28:01<1:24:45, 11.18s/it] 88%|████████▊ | 3383/3837 [10:28:12<1:25:15, 11.27s/it] 88%|████████▊ | 3384/3837 [10:28:22<1:22:01, 10.86s/it] 88%|████████▊ | 3385/3837 [10:28:34<1:23:26, 11.08s/it] 88%|████████▊ | 3386/3837 [10:28:45<1:24:16, 11.21s/it] 88%|████████▊ | 3387/3837 [10:28:57<1:24:33, 11.28s/it] 88%|████████▊ | 3388/3837 [10:29:08<1:24:35, 11.30s/it] 88%|████████▊ | 3389/3837 [10:29:20<1:24:58, 11.38s/it] 88%|████████▊ | 3390/3837 [10:29:30<1:21:31, 10.94s/it]                                                        {'loss': 3.4734, 'grad_norm': 14.552695274353027, 'learning_rate': 3.518638791210599e-07, 'epoch': 0.88}
+ 88%|████████▊ | 3390/3837 [10:29:30<1:21:31, 10.94s/it] 88%|████████▊ | 3391/3837 [10:29:41<1:22:29, 11.10s/it] 88%|████████▊ | 3392/3837 [10:29:51<1:19:37, 10.74s/it] 88%|████████▊ | 3393/3837 [10:30:03<1:21:16, 10.98s/it] 88%|████████▊ | 3394/3837 [10:30:14<1:22:28, 11.17s/it] 88%|████████▊ | 3395/3837 [10:30:24<1:19:12, 10.75s/it] 89%|████████▊ | 3396/3837 [10:30:35<1:20:40, 10.98s/it] 89%|████████▊ | 3397/3837 [10:30:44<1:14:31, 10.16s/it] 89%|████████▊ | 3398/3837 [10:30:55<1:17:13, 10.55s/it] 89%|████████▊ | 3399/3837 [10:31:07<1:19:19, 10.87s/it] 89%|████████▊ | 3400/3837 [10:31:18<1:20:23, 11.04s/it]                                                        {'loss': 3.3613, 'grad_norm': 14.461812973022461, 'learning_rate': 3.3647368000263745e-07, 'epoch': 0.89}
+ 89%|████████▊ | 3400/3837 [10:31:18<1:20:23, 11.04s/it] 89%|████████▊ | 3401/3837 [10:31:28<1:17:48, 10.71s/it] 89%|████████▊ | 3402/3837 [10:31:40<1:19:08, 10.92s/it] 89%|████████▊ | 3403/3837 [10:31:50<1:16:58, 10.64s/it] 89%|████████▊ | 3404/3837 [10:32:01<1:18:37, 10.90s/it] 89%|████████▊ | 3405/3837 [10:32:13<1:19:37, 11.06s/it] 89%|████████▉ | 3406/3837 [10:32:24<1:20:05, 11.15s/it] 89%|████████▉ | 3407/3837 [10:32:35<1:20:35, 11.25s/it] 89%|████████▉ | 3408/3837 [10:32:45<1:17:22, 10.82s/it] 89%|████████▉ | 3409/3837 [10:32:57<1:18:29, 11.00s/it] 89%|████████▉ | 3410/3837 [10:33:06<1:15:52, 10.66s/it]                                                        {'loss': 3.4505, 'grad_norm': 13.983736991882324, 'learning_rate': 3.214159047975324e-07, 'epoch': 0.89}
+ 89%|████████▉ | 3410/3837 [10:33:06<1:15:52, 10.66s/it] 89%|████████▉ | 3411/3837 [10:33:18<1:17:31, 10.92s/it] 89%|████████▉ | 3412/3837 [10:33:28<1:15:03, 10.60s/it] 89%|████████▉ | 3413/3837 [10:33:41<1:20:25, 11.38s/it] 89%|████████▉ | 3414/3837 [10:33:53<1:20:28, 11.42s/it] 89%|████████▉ | 3415/3837 [10:34:02<1:17:08, 10.97s/it] 89%|████████▉ | 3416/3837 [10:34:14<1:17:47, 11.09s/it] 89%|████████▉ | 3417/3837 [10:34:24<1:15:12, 10.74s/it] 89%|████████▉ | 3418/3837 [10:34:35<1:16:33, 10.96s/it] 89%|████████▉ | 3419/3837 [10:34:47<1:17:20, 11.10s/it] 89%|████████▉ | 3420/3837 [10:34:58<1:17:49, 11.20s/it]                                                        {'loss': 3.3938, 'grad_norm': 14.170096397399902, 'learning_rate': 3.0669162684900555e-07, 'epoch': 0.89}
+ 89%|████████▉ | 3420/3837 [10:34:58<1:17:49, 11.20s/it] 89%|████████▉ | 3421/3837 [10:35:08<1:14:45, 10.78s/it] 89%|████████▉ | 3422/3837 [10:35:19<1:15:50, 10.97s/it] 89%|████████▉ | 3423/3837 [10:35:32<1:20:17, 11.64s/it] 89%|████████▉ | 3424/3837 [10:35:44<1:19:48, 11.59s/it] 89%|████████▉ | 3425/3837 [10:35:55<1:19:11, 11.53s/it] 89%|████████▉ | 3426/3837 [10:36:09<1:22:25, 12.03s/it] 89%|████████▉ | 3427/3837 [10:36:20<1:21:11, 11.88s/it] 89%|████████▉ | 3428/3837 [10:36:30<1:16:51, 11.27s/it] 89%|████████▉ | 3429/3837 [10:36:41<1:17:00, 11.33s/it] 89%|████████▉ | 3430/3837 [10:36:53<1:17:06, 11.37s/it]                                                        {'loss': 3.4493, 'grad_norm': 13.338794708251953, 'learning_rate': 2.923018957280843e-07, 'epoch': 0.89}
+ 89%|████████▉ | 3430/3837 [10:36:53<1:17:06, 11.37s/it] 89%|████████▉ | 3431/3837 [10:37:04<1:16:56, 11.37s/it] 89%|████████▉ | 3432/3837 [10:37:14<1:13:32, 10.90s/it] 89%|████████▉ | 3433/3837 [10:37:24<1:11:27, 10.61s/it] 89%|████████▉ | 3434/3837 [10:37:36<1:13:07, 10.89s/it] 90%|████████▉ | 3435/3837 [10:37:47<1:14:15, 11.08s/it] 90%|████████▉ | 3436/3837 [10:37:59<1:14:58, 11.22s/it] 90%|████████▉ | 3437/3837 [10:38:08<1:11:58, 10.80s/it] 90%|████████▉ | 3438/3837 [10:38:22<1:16:28, 11.50s/it] 90%|████████▉ | 3439/3837 [10:38:33<1:16:05, 11.47s/it] 90%|████████▉ | 3440/3837 [10:38:43<1:12:43, 10.99s/it]                                                        {'loss': 3.3652, 'grad_norm': 14.849313735961914, 'learning_rate': 2.782477371587361e-07, 'epoch': 0.9}
+ 90%|████████▉ | 3440/3837 [10:38:43<1:12:43, 10.99s/it] 90%|████████▉ | 3441/3837 [10:38:54<1:13:35, 11.15s/it] 90%|████████▉ | 3442/3837 [10:39:06<1:14:17, 11.28s/it] 90%|████████▉ | 3443/3837 [10:39:18<1:14:41, 11.37s/it] 90%|████████▉ | 3444/3837 [10:39:29<1:14:47, 11.42s/it] 90%|████████▉ | 3445/3837 [10:39:42<1:17:54, 11.92s/it] 90%|████████▉ | 3446/3837 [10:39:54<1:16:55, 11.80s/it] 90%|████████▉ | 3447/3837 [10:40:03<1:12:46, 11.20s/it] 90%|████████▉ | 3448/3837 [10:40:15<1:13:09, 11.28s/it] 90%|████████▉ | 3449/3837 [10:40:25<1:10:27, 10.90s/it] 90%|████████▉ | 3450/3837 [10:40:35<1:08:09, 10.57s/it]                                                        {'loss': 3.4273, 'grad_norm': 14.38377571105957, 'learning_rate': 2.6453015294476247e-07, 'epoch': 0.9}
+ 90%|████████▉ | 3450/3837 [10:40:35<1:08:09, 10.57s/it] 90%|████████▉ | 3451/3837 [10:40:46<1:09:36, 10.82s/it] 90%|████████▉ | 3452/3837 [10:40:58<1:10:35, 11.00s/it] 90%|████████▉ | 3453/3837 [10:41:09<1:11:10, 11.12s/it] 90%|█████████ | 3454/3837 [10:41:19<1:08:33, 10.74s/it] 90%|█████████ | 3455/3837 [10:41:29<1:06:26, 10.43s/it] 90%|█████████ | 3456/3837 [10:41:38<1:05:07, 10.26s/it] 90%|█████████ | 3457/3837 [10:41:48<1:04:15, 10.15s/it] 90%|█████████ | 3458/3837 [10:42:00<1:06:37, 10.55s/it] 90%|█████████ | 3459/3837 [10:42:10<1:05:06, 10.33s/it] 90%|█████████ | 3460/3837 [10:42:19<1:03:46, 10.15s/it]                                                        {'loss': 3.4077, 'grad_norm': 11.596222877502441, 'learning_rate': 2.51150120898383e-07, 'epoch': 0.9}
+ 90%|█████████ | 3460/3837 [10:42:19<1:03:46, 10.15s/it] 90%|█████████ | 3461/3837 [10:42:31<1:06:00, 10.53s/it] 90%|█████████ | 3462/3837 [10:42:41<1:04:25, 10.31s/it] 90%|█████████ | 3463/3837 [10:42:52<1:06:22, 10.65s/it] 90%|█████████ | 3464/3837 [10:43:02<1:04:31, 10.38s/it] 90%|█████████ | 3465/3837 [10:43:13<1:06:20, 10.70s/it] 90%|█████████ | 3466/3837 [10:43:25<1:07:38, 10.94s/it] 90%|█████████ | 3467/3837 [10:43:36<1:08:26, 11.10s/it] 90%|█████████ | 3468/3837 [10:43:46<1:06:06, 10.75s/it] 90%|█████████ | 3469/3837 [10:43:56<1:04:35, 10.53s/it] 90%|█████████ | 3470/3837 [10:44:06<1:02:56, 10.29s/it]                                                        {'loss': 3.3455, 'grad_norm': 13.537557601928711, 'learning_rate': 2.3810859477053972e-07, 'epoch': 0.9}
+ 90%|█████████ | 3470/3837 [10:44:06<1:02:56, 10.29s/it] 90%|█████████ | 3471/3837 [10:44:16<1:01:42, 10.12s/it] 90%|█████████ | 3472/3837 [10:44:26<1:01:20, 10.08s/it] 91%|█████████ | 3473/3837 [10:44:35<1:00:40, 10.00s/it] 91%|█████████ | 3474/3837 [10:44:47<1:03:27, 10.49s/it] 91%|█████████ | 3475/3837 [10:45:00<1:08:08, 11.29s/it] 91%|█████████ | 3476/3837 [10:45:12<1:08:10, 11.33s/it] 91%|█████████ | 3477/3837 [10:45:23<1:08:28, 11.41s/it] 91%|█████████ | 3478/3837 [10:45:35<1:08:49, 11.50s/it] 91%|█████████ | 3479/3837 [10:45:45<1:06:00, 11.06s/it] 91%|█████████ | 3480/3837 [10:45:56<1:06:41, 11.21s/it]                                                        {'loss': 3.361, 'grad_norm': 14.95813274383545, 'learning_rate': 2.2540650418290565e-07, 'epoch': 0.91}
+ 91%|█████████ | 3480/3837 [10:45:56<1:06:41, 11.21s/it] 91%|█████████ | 3481/3837 [10:46:08<1:06:54, 11.28s/it] 91%|█████████ | 3482/3837 [10:46:19<1:07:05, 11.34s/it] 91%|█████████ | 3483/3837 [10:46:29<1:04:22, 10.91s/it] 91%|█████████ | 3484/3837 [10:46:41<1:05:13, 11.09s/it] 91%|█████████ | 3485/3837 [10:46:52<1:05:41, 11.20s/it] 91%|█████████ | 3486/3837 [10:47:02<1:03:12, 10.81s/it] 91%|█████████ | 3487/3837 [10:47:12<1:01:34, 10.55s/it] 91%|█████████ | 3488/3837 [10:47:24<1:03:22, 10.89s/it] 91%|█████████ | 3489/3837 [10:47:35<1:04:24, 11.11s/it] 91%|█████████ | 3490/3837 [10:47:47<1:04:46, 11.20s/it]                                                        {'loss': 3.494, 'grad_norm': 15.819819450378418, 'learning_rate': 2.130447545616282e-07, 'epoch': 0.91}
+ 91%|█████████ | 3490/3837 [10:47:47<1:04:46, 11.20s/it] 91%|█████████ | 3491/3837 [10:47:57<1:02:23, 10.82s/it] 91%|█████████ | 3492/3837 [10:48:07<1:00:28, 10.52s/it] 91%|█████████ | 3493/3837 [10:48:16<59:05, 10.31s/it]   91%|█████████ | 3494/3837 [10:48:30<1:03:51, 11.17s/it] 91%|█████████ | 3495/3837 [10:48:41<1:04:17, 11.28s/it] 91%|█████████ | 3496/3837 [10:48:53<1:04:20, 11.32s/it] 91%|█████████ | 3497/3837 [10:49:04<1:04:25, 11.37s/it] 91%|█████████ | 3498/3837 [10:49:16<1:04:39, 11.44s/it] 91%|█████████ | 3499/3837 [10:49:27<1:04:35, 11.47s/it] 91%|█████████ | 3500/3837 [10:49:37<1:01:34, 10.96s/it]                                                        {'loss': 3.2347, 'grad_norm': 12.460811614990234, 'learning_rate': 2.0102422707278135e-07, 'epoch': 0.91}
+ 91%|█████████ | 3500/3837 [10:49:37<1:01:34, 10.96s/it] 91%|█████████ | 3501/3837 [10:49:47<59:36, 10.64s/it]   91%|█████████▏| 3502/3837 [10:49:57<59:03, 10.58s/it] 91%|█████████▏| 3503/3837 [10:50:09<1:00:15, 10.83s/it] 91%|█████████▏| 3504/3837 [10:50:19<58:30, 10.54s/it]   91%|█████████▏| 3505/3837 [10:50:30<59:52, 10.82s/it] 91%|█████████▏| 3506/3837 [10:50:41<1:00:42, 11.00s/it] 91%|█████████▏| 3507/3837 [10:50:53<1:01:28, 11.18s/it] 91%|█████████▏| 3508/3837 [10:51:04<1:01:48, 11.27s/it] 91%|█████████▏| 3509/3837 [10:51:16<1:01:57, 11.33s/it] 91%|█████████▏| 3510/3837 [10:51:26<59:36, 10.94s/it]                                                        {'loss': 3.3209, 'grad_norm': 13.781402587890625, 'learning_rate': 1.893457785595604e-07, 'epoch': 0.91}
+ 91%|█████████▏| 3510/3837 [10:51:26<59:36, 10.94s/it] 92%|█████████▏| 3511/3837 [10:51:37<1:00:17, 11.10s/it] 92%|█████████▏| 3512/3837 [10:51:49<1:00:48, 11.23s/it] 92%|█████████▏| 3513/3837 [10:52:00<1:00:55, 11.28s/it] 92%|█████████▏| 3514/3837 [10:52:10<58:30, 10.87s/it]   92%|█████████▏| 3515/3837 [10:52:22<59:27, 11.08s/it] 92%|█████████▏| 3516/3837 [10:52:34<1:00:14, 11.26s/it] 92%|█████████▏| 3517/3837 [10:52:43<57:52, 10.85s/it]   92%|█████████▏| 3518/3837 [10:52:55<58:41, 11.04s/it] 92%|█████████▏| 3519/3837 [10:53:06<59:10, 11.16s/it] 92%|█████████▏| 3520/3837 [10:53:18<59:24, 11.24s/it]                                                      {'loss': 3.213, 'grad_norm': 13.93978214263916, 'learning_rate': 1.7801024148120018e-07, 'epoch': 0.92}
+ 92%|█████████▏| 3520/3837 [10:53:18<59:24, 11.24s/it] 92%|█████████▏| 3521/3837 [10:53:28<57:04, 10.84s/it] 92%|█████████▏| 3522/3837 [10:53:38<55:21, 10.54s/it] 92%|█████████▏| 3523/3837 [10:53:49<56:32, 10.80s/it] 92%|█████████▏| 3524/3837 [10:53:59<54:42, 10.49s/it] 92%|█████████▏| 3525/3837 [10:54:10<56:07, 10.79s/it] 92%|█████████▏| 3526/3837 [10:54:22<57:06, 11.02s/it] 92%|█████████▏| 3527/3837 [10:54:32<55:22, 10.72s/it] 92%|█████████▏| 3528/3837 [10:54:43<56:21, 10.94s/it] 92%|█████████▏| 3529/3837 [10:54:53<54:49, 10.68s/it] 92%|█████████▏| 3530/3837 [10:55:05<55:48, 10.91s/it]                                                      {'loss': 3.1792, 'grad_norm': 16.11202049255371, 'learning_rate': 1.6701842385363932e-07, 'epoch': 0.92}
+ 92%|█████████▏| 3530/3837 [10:55:05<55:48, 10.91s/it] 92%|█████████▏| 3531/3837 [10:55:16<56:48, 11.14s/it] 92%|█████████▏| 3532/3837 [10:55:27<55:06, 10.84s/it] 92%|█████████▏| 3533/3837 [10:55:38<55:56, 11.04s/it] 92%|█████████▏| 3534/3837 [10:55:48<53:59, 10.69s/it] 92%|█████████▏| 3535/3837 [10:55:59<54:55, 10.91s/it] 92%|█████████▏| 3536/3837 [10:56:11<55:31, 11.07s/it] 92%|█████████▏| 3537/3837 [10:56:21<53:32, 10.71s/it] 92%|█████████▏| 3538/3837 [10:56:32<54:22, 10.91s/it] 92%|█████████▏| 3539/3837 [10:56:44<54:57, 11.07s/it] 92%|█████████▏| 3540/3837 [10:56:55<55:21, 11.18s/it]                                                      {'loss': 3.2897, 'grad_norm': 15.065796852111816, 'learning_rate': 1.5637110919192289e-07, 'epoch': 0.92}
+ 92%|█████████▏| 3540/3837 [10:56:55<55:21, 11.18s/it] 92%|█████████▏| 3541/3837 [10:57:08<58:12, 11.80s/it] 92%|█████████▏| 3542/3837 [10:57:20<57:29, 11.69s/it] 92%|█████████▏| 3543/3837 [10:57:31<57:09, 11.67s/it] 92%|█████████▏| 3544/3837 [10:57:43<56:54, 11.65s/it] 92%|█████████▏| 3545/3837 [10:57:55<56:45, 11.66s/it] 92%|█████████▏| 3546/3837 [10:58:06<56:29, 11.65s/it] 92%|█████████▏| 3547/3837 [10:58:16<53:42, 11.11s/it] 92%|█████████▏| 3548/3837 [10:58:28<54:07, 11.24s/it] 92%|█████████▏| 3549/3837 [10:58:39<54:18, 11.31s/it] 93%|█████████▎| 3550/3837 [10:58:51<54:19, 11.36s/it]                                                      {'loss': 3.2679, 'grad_norm': 14.395028114318848, 'learning_rate': 1.4606905645434876e-07, 'epoch': 0.93}
+ 93%|█████████▎| 3550/3837 [10:58:51<54:19, 11.36s/it] 93%|█████████▎| 3551/3837 [10:59:00<52:01, 10.92s/it] 93%|█████████▎| 3552/3837 [10:59:12<52:42, 11.10s/it] 93%|█████████▎| 3553/3837 [10:59:23<53:10, 11.23s/it] 93%|█████████▎| 3554/3837 [10:59:35<53:11, 11.28s/it] 93%|█████████▎| 3555/3837 [10:59:46<53:17, 11.34s/it] 93%|█████████▎| 3556/3837 [10:59:56<51:03, 10.90s/it] 93%|█████████▎| 3557/3837 [11:00:08<51:49, 11.11s/it] 93%|█████████▎| 3558/3837 [11:00:19<52:11, 11.22s/it] 93%|█████████▎| 3559/3837 [11:00:31<52:24, 11.31s/it] 93%|█████████▎| 3560/3837 [11:00:42<52:19, 11.33s/it]                                                      {'loss': 3.2002, 'grad_norm': 15.025830268859863, 'learning_rate': 1.3611299998837367e-07, 'epoch': 0.93}
+ 93%|█████████▎| 3560/3837 [11:00:42<52:19, 11.33s/it] 93%|█████████▎| 3561/3837 [11:00:54<52:11, 11.35s/it] 93%|█████████▎| 3562/3837 [11:01:05<52:07, 11.37s/it] 93%|█████████▎| 3563/3837 [11:01:15<49:57, 10.94s/it] 93%|█████████▎| 3564/3837 [11:01:27<50:36, 11.12s/it] 93%|█████████▎| 3565/3837 [11:01:36<48:34, 10.72s/it] 93%|█████████▎| 3566/3837 [11:01:48<49:27, 10.95s/it] 93%|█████████▎| 3567/3837 [11:01:59<49:59, 11.11s/it] 93%|█████████▎| 3568/3837 [11:02:11<50:16, 11.21s/it] 93%|█████████▎| 3569/3837 [11:02:22<50:22, 11.28s/it] 93%|█████████▎| 3570/3837 [11:02:34<50:29, 11.35s/it]                                                      {'loss': 3.3427, 'grad_norm': 13.283101081848145, 'learning_rate': 1.265036494782629e-07, 'epoch': 0.93}
+ 93%|█████████▎| 3570/3837 [11:02:34<50:29, 11.35s/it] 93%|█████████▎| 3571/3837 [11:02:45<50:25, 11.37s/it] 93%|█████████▎| 3572/3837 [11:02:57<50:20, 11.40s/it] 93%|█████████▎| 3573/3837 [11:03:08<50:13, 11.41s/it] 93%|█████████▎| 3574/3837 [11:03:19<50:06, 11.43s/it] 93%|█████████▎| 3575/3837 [11:03:31<50:00, 11.45s/it] 93%|█████████▎| 3576/3837 [11:03:42<49:56, 11.48s/it] 93%|█████████▎| 3577/3837 [11:03:52<47:35, 10.98s/it] 93%|█████████▎| 3578/3837 [11:04:06<50:20, 11.66s/it] 93%|█████████▎| 3579/3837 [11:04:17<49:52, 11.60s/it] 93%|█████████▎| 3580/3837 [11:04:27<47:28, 11.08s/it]                                                      {'loss': 3.277, 'grad_norm': 12.859179496765137, 'learning_rate': 1.1724168989450391e-07, 'epoch': 0.93}
+ 93%|█████████▎| 3580/3837 [11:04:27<47:28, 11.08s/it] 93%|█████████▎| 3581/3837 [11:04:39<47:58, 11.24s/it] 93%|█████████▎| 3582/3837 [11:04:48<45:58, 10.82s/it] 93%|█████████▎| 3583/3837 [11:05:00<46:40, 11.02s/it] 93%|█████████▎| 3584/3837 [11:05:11<47:00, 11.15s/it] 93%|█████████▎| 3585/3837 [11:05:23<47:08, 11.22s/it] 93%|█████████▎| 3586/3837 [11:05:34<47:13, 11.29s/it] 93%|█████████▎| 3587/3837 [11:05:44<45:23, 10.89s/it] 94%|█████████▎| 3588/3837 [11:05:54<43:58, 10.60s/it] 94%|█████████▎| 3589/3837 [11:06:06<45:13, 10.94s/it] 94%|████████��▎| 3590/3837 [11:06:17<45:47, 11.13s/it]                                                      {'loss': 3.218, 'grad_norm': 13.371453285217285, 'learning_rate': 1.0832778144498291e-07, 'epoch': 0.94}
+ 94%|█████████▎| 3590/3837 [11:06:17<45:47, 11.13s/it] 94%|█████████▎| 3591/3837 [11:06:27<43:52, 10.70s/it] 94%|█████████▎| 3592/3837 [11:06:37<42:42, 10.46s/it] 94%|█████████▎| 3593/3837 [11:06:48<43:42, 10.75s/it] 94%|█████████▎| 3594/3837 [11:06:58<42:27, 10.48s/it] 94%|█████████▎| 3595/3837 [11:07:08<41:31, 10.30s/it] 94%|█████████▎| 3596/3837 [11:07:19<42:44, 10.64s/it] 94%|█████████▎| 3597/3837 [11:07:30<41:52, 10.47s/it] 94%|█████████▍| 3598/3837 [11:07:39<40:57, 10.28s/it] 94%|█████████▍| 3599/3837 [11:07:49<40:23, 10.18s/it] 94%|█████████▍| 3600/3837 [11:08:01<41:48, 10.58s/it]                                                      {'loss': 3.1963, 'grad_norm': 13.968640327453613, 'learning_rate': 9.976255952792168e-08, 'epoch': 0.94}
+ 94%|█████████▍| 3600/3837 [11:08:01<41:48, 10.58s/it] 94%|█████████▍| 3601/3837 [11:08:12<42:37, 10.84s/it] 94%|█████████▍| 3602/3837 [11:08:22<41:17, 10.54s/it] 94%|█████████▍| 3603/3837 [11:08:32<40:15, 10.32s/it] 94%|█████████▍| 3604/3837 [11:08:42<39:25, 10.15s/it] 94%|█████████▍| 3605/3837 [11:08:53<40:59, 10.60s/it] 94%|█████████▍| 3606/3837 [11:09:05<41:49, 10.86s/it] 94%|█████████▍| 3607/3837 [11:09:13<38:33, 10.06s/it] 94%|█████████▍| 3608/3837 [11:09:25<40:01, 10.49s/it] 94%|█████████▍| 3609/3837 [11:09:36<40:54, 10.77s/it] 94%|█████████▍| 3610/3837 [11:09:46<39:38, 10.48s/it]                                                      {'loss': 3.2342, 'grad_norm': 12.617493629455566, 'learning_rate': 9.15466346865851e-08, 'epoch': 0.94}
+ 94%|█████████▍| 3610/3837 [11:09:46<39:38, 10.48s/it] 94%|█████████▍| 3611/3837 [11:09:59<42:33, 11.30s/it] 94%|█████████▍| 3612/3837 [11:10:10<42:33, 11.35s/it] 94%|█████████▍| 3613/3837 [11:10:20<40:38, 10.89s/it] 94%|█████████▍| 3614/3837 [11:10:32<41:01, 11.04s/it] 94%|█████████▍| 3615/3837 [11:10:41<39:28, 10.67s/it] 94%|█████████▍| 3616/3837 [11:10:53<40:07, 10.89s/it] 94%|█████████▍| 3617/3837 [11:11:04<40:40, 11.10s/it] 94%|█████████▍| 3618/3837 [11:11:16<40:59, 11.23s/it] 94%|█████████▍| 3619/3837 [11:11:29<42:52, 11.80s/it] 94%|█████████▍| 3620/3837 [11:11:39<40:33, 11.22s/it]                                                      {'loss': 3.3285, 'grad_norm': 13.56783676147461, 'learning_rate': 8.368059256576244e-08, 'epoch': 0.94}
+ 94%|█████████▍| 3620/3837 [11:11:39<40:33, 11.22s/it] 94%|█████████▍| 3621/3837 [11:11:49<38:50, 10.79s/it] 94%|█████████▍| 3622/3837 [11:11:59<37:46, 10.54s/it] 94%|█████████▍| 3623/3837 [11:12:10<38:40, 10.85s/it] 94%|█████████▍| 3624/3837 [11:12:22<39:08, 11.03s/it] 94%|█████████▍| 3625/3837 [11:12:33<39:30, 11.18s/it] 95%|█████████▍| 3626/3837 [11:12:45<39:41, 11.29s/it] 95%|█████████▍| 3627/3837 [11:12:58<41:29, 11.85s/it] 95%|█████████▍| 3628/3837 [11:13:09<40:58, 11.76s/it] 95%|█████████▍| 3629/3837 [11:13:19<38:44, 11.18s/it] 95%|█████████▍| 3630/3837 [11:13:31<38:51, 11.27s/it]                                                      {'loss': 3.4222, 'grad_norm': 14.597091674804688, 'learning_rate': 7.616499387001985e-08, 'epoch': 0.95}
+ 95%|█████████▍| 3630/3837 [11:13:31<38:51, 11.27s/it] 95%|█████████▍| 3631/3837 [11:13:42<38:58, 11.35s/it] 95%|█████████▍| 3632/3837 [11:13:54<38:57, 11.40s/it] 95%|█████████▍| 3633/3837 [11:14:04<37:17, 10.97s/it] 95%|█████████▍| 3634/3837 [11:14:15<37:41, 11.14s/it] 95%|█████████▍| 3635/3837 [11:14:25<36:04, 10.72s/it] 95%|█████████▍| 3636/3837 [11:14:35<35:01, 10.46s/it] 95%|█████████▍| 3637/3837 [11:14:46<35:44, 10.72s/it] 95%|█████████▍| 3638/3837 [11:14:56<34:42, 10.46s/it] 95%|█████████▍| 3639/3837 [11:15:08<35:39, 10.80s/it] 95%|█████████▍| 3640/3837 [11:15:18<34:36, 10.54s/it]                                                      {'loss': 3.3353, 'grad_norm': 12.133713722229004, 'learning_rate': 6.900037432373441e-08, 'epoch': 0.95}
+ 95%|█████████▍| 3640/3837 [11:15:18<34:36, 10.54s/it] 95%|█████████▍| 3641/3837 [11:15:29<35:19, 10.81s/it] 95%|█████████▍| 3642/3837 [11:15:41<35:44, 11.00s/it] 95%|█████████▍| 3643/3837 [11:15:54<37:36, 11.63s/it] 95%|█████████▍| 3644/3837 [11:16:03<35:41, 11.10s/it] 95%|█████████▍| 3645/3837 [11:16:15<35:51, 11.20s/it] 95%|█████████▌| 3646/3837 [11:16:26<35:55, 11.29s/it] 95%|█████████▌| 3647/3837 [11:16:38<35:54, 11.34s/it] 95%|█████████▌| 3648/3837 [11:16:49<35:52, 11.39s/it] 95%|█████████▌| 3649/3837 [11:17:01<35:51, 11.44s/it] 95%|█████████▌| 3650/3837 [11:17:12<35:45, 11.47s/it]                                                      {'loss': 3.4428, 'grad_norm': 16.943021774291992, 'learning_rate': 6.21872446329036e-08, 'epoch': 0.95}
+ 95%|█████████▌| 3650/3837 [11:17:12<35:45, 11.47s/it] 95%|█████████▌| 3651/3837 [11:17:22<34:04, 10.99s/it] 95%|█████████▌| 3652/3837 [11:17:32<32:54, 10.67s/it] 95%|█████████▌| 3653/3837 [11:17:42<31:54, 10.41s/it] 95%|█████████▌| 3654/3837 [11:17:54<32:42, 10.73s/it] 95%|█████████▌| 3655/3837 [11:18:05<33:09, 10.93s/it] 95%|█████████▌| 3656/3837 [11:18:18<35:00, 11.61s/it] 95%|█████████▌| 3657/3837 [11:18:30<34:45, 11.59s/it] 95%|█████████▌| 3658/3837 [11:18:40<33:05, 11.09s/it] 95%|█████████▌| 3659/3837 [11:18:51<33:11, 11.19s/it] 95%|█████████▌| 3660/3837 [11:19:02<33:08, 11.23s/it]                                                      {'loss': 3.4972, 'grad_norm': 16.915424346923828, 'learning_rate': 5.572609044874666e-08, 'epoch': 0.95}
+ 95%|█████████▌| 3660/3837 [11:19:02<33:08, 11.23s/it] 95%|█████████▌| 3661/3837 [11:19:12<31:44, 10.82s/it] 95%|█████████▌| 3662/3837 [11:19:22<30:47, 10.56s/it] 95%|█████████▌| 3663/3837 [11:19:34<31:29, 10.86s/it] 95%|█████████▌| 3664/3837 [11:19:47<33:15, 11.54s/it] 96%|█████████▌| 3665/3837 [11:19:58<32:57, 11.50s/it] 96%|█████████▌| 3666/3837 [11:20:08<31:16, 10.97s/it] 96%|█████████▌| 3667/3837 [11:20:19<31:29, 11.11s/it] 96%|█████████▌| 3668/3837 [11:20:29<30:14, 10.74s/it] 96%|█████████▌| 3669/3837 [11:20:41<30:44, 10.98s/it] 96%|█████████▌| 3670/3837 [11:20:51<29:35, 10.63s/it]                                                      {'loss': 3.2978, 'grad_norm': 15.0619478225708, 'learning_rate': 4.961737233307895e-08, 'epoch': 0.96}
+ 96%|█████████▌| 3670/3837 [11:20:51<29:35, 10.63s/it] 96%|█████████▌| 3671/3837 [11:21:02<30:06, 10.88s/it] 96%|█████████▌| 3672/3837 [11:21:14<30:25, 11.06s/it] 96%|█████████▌| 3673/3837 [11:21:24<29:40, 10.86s/it] 96%|█████████▌| 3674/3837 [11:21:34<28:36, 10.53s/it] 96%|█████████▌| 3675/3837 [11:21:44<27:58, 10.36s/it] 96%|█████████▌| 3676/3837 [11:21:54<27:25, 10.22s/it] 96%|█████████▌| 3677/3837 [11:22:03<26:50, 10.07s/it] 96%|█████████▌| 3678/3837 [11:22:13<26:30, 10.00s/it] 96%|█████████▌| 3679/3837 [11:22:25<27:26, 10.42s/it] 96%|█████████▌| 3680/3837 [11:22:34<26:46, 10.23s/it]                                                      {'loss': 3.3231, 'grad_norm': 12.197420120239258, 'learning_rate': 4.3861525725490406e-08, 'epoch': 0.96}
+ 96%|█████████▌| 3680/3837 [11:22:34<26:46, 10.23s/it] 96%|█████████▌| 3681/3837 [11:22:44<26:17, 10.11s/it] 96%|█████████▌| 3682/3837 [11:22:56<27:09, 10.51s/it] 96%|█████████▌| 3683/3837 [11:23:07<27:49, 10.84s/it] 96%|█████████▌| 3684/3837 [11:23:19<28:05, 11.02s/it] 96%|█████████▌| 3685/3837 [11:23:30<28:10, 11.12s/it] 96%|█████████▌| 3686/3837 [11:23:43<29:29, 11.72s/it] 96%|█████████▌| 3687/3837 [11:23:56<30:21, 12.15s/it] 96%|█████████▌| 3688/3837 [11:24:06<28:24, 11.44s/it] 96%|█████████▌| 3689/3837 [11:24:16<26:58, 10.93s/it] 96%|█████████▌| 3690/3837 [11:24:27<27:09, 11.09s/it]                                                      {'loss': 3.5443, 'grad_norm': 15.157994270324707, 'learning_rate': 3.8458960912300946e-08, 'epoch': 0.96}
+ 96%|█████████▌| 3690/3837 [11:24:27<27:09, 11.09s/it] 96%|█████████▌| 3691/3837 [11:24:39<27:09, 11.16s/it] 96%|█████████▌| 3692/3837 [11:24:50<27:16, 11.28s/it] 96%|█████████▌| 3693/3837 [11:25:03<28:23, 11.83s/it] 96%|█████████▋| 3694/3837 [11:25:13<26:44, 11.22s/it] 96%|█████████▋| 3695/3837 [11:25:25<26:43, 11.29s/it] 96%|█████████▋| 3696/3837 [11:25:36<26:39, 11.35s/it] 96%|█████████▋| 3697/3837 [11:25:46<25:17, 10.84s/it] 96%|█████████▋| 3698/3837 [11:25:57<25:34, 11.04s/it] 96%|█████████▋| 3699/3837 [11:26:09<25:40, 11.16s/it] 96%|█████████▋| 3700/3837 [11:26:18<24:34, 10.76s/it]                                                      {'loss': 3.4109, 'grad_norm': 16.018217086791992, 'learning_rate': 3.341006299731664e-08, 'epoch': 0.96}
+ 96%|█████████▋| 3700/3837 [11:26:18<24:34, 10.76s/it] 96%|█████████▋| 3701/3837 [11:26:28<23:49, 10.51s/it] 96%|█████████▋| 3702/3837 [11:26:41<25:20, 11.26s/it] 97%|█████████▋| 3703/3837 [11:26:51<24:18, 10.88s/it] 97%|█████████▋| 3704/3837 [11:27:03<24:35, 11.09s/it] 97%|█████████▋| 3705/3837 [11:27:14<24:39, 11.21s/it] 97%|█████████▋| 3706/3837 [11:27:26<24:36, 11.27s/it] 97%|█████████▋| 3707/3837 [11:27:37<24:32, 11.33s/it] 97%|█████████▋| 3708/3837 [11:27:49<24:32, 11.41s/it] 97%|█████████▋| 3709/3837 [11:28:00<24:21, 11.42s/it] 97%|█████████▋| 3710/3837 [11:28:10<23:12, 10.96s/it]                                                      {'loss': 3.4134, 'grad_norm': 14.247093200683594, 'learning_rate': 2.871519187437999e-08, 'epoch': 0.97}
+ 97%|█████████▋| 3710/3837 [11:28:10<23:12, 10.96s/it] 97%|█████████▋| 3711/3837 [11:28:20<22:22, 10.65s/it] 97%|█████████▋| 3712/3837 [11:28:30<21:40, 10.41s/it] 97%|█████████▋| 3713/3837 [11:28:40<21:06, 10.21s/it] 97%|█████████▋| 3714/3837 [11:28:51<21:46, 10.62s/it] 97%|█████████▋| 3715/3837 [11:29:05<23:06, 11.37s/it] 97%|█████████▋| 3716/3837 [11:29:14<22:00, 10.91s/it] 97%|█████████▋| 3717/3837 [11:29:24<21:10, 10.59s/it] 97%|█████████▋| 3718/3837 [11:29:36<21:33, 10.87s/it] 97%|█████████▋| 3719/3837 [11:29:47<21:47, 11.08s/it] 97%|█████████▋| 3720/3837 [11:29:59<21:54, 11.23s/it]                                                      {'loss': 3.3059, 'grad_norm': 12.761212348937988, 'learning_rate': 2.437468220171324e-08, 'epoch': 0.97}
+ 97%|█████████▋| 3720/3837 [11:29:59<21:54, 11.23s/it] 97%|█████████▋| 3721/3837 [11:30:10<21:54, 11.33s/it] 97%|█████████▋| 3722/3837 [11:30:22<21:44, 11.35s/it] 97%|█████████▋| 3723/3837 [11:30:33<21:39, 11.40s/it] 97%|█████████▋| 3724/3837 [11:30:45<21:51, 11.60s/it] 97%|█████████▋| 3725/3837 [11:30:55<20:45, 11.12s/it] 97%|█████████▋| 3726/3837 [11:31:07<20:47, 11.24s/it] 97%|█████████▋| 3727/3837 [11:31:18<20:46, 11.33s/it] 97%|█████████▋| 3728/3837 [11:31:28<19:44, 10.86s/it] 97%|█████████▋| 3729/3837 [11:31:40<19:51, 11.04s/it] 97%|█████████▋| 3730/3837 [11:31:49<18:59, 10.65s/it]                                                      {'loss': 3.4214, 'grad_norm': 13.68462085723877, 'learning_rate': 2.0388843378065792e-08, 'epoch': 0.97}
+ 97%|█████████▋| 3730/3837 [11:31:49<18:59, 10.65s/it] 97%|█████████▋| 3731/3837 [11:32:01<19:15, 10.90s/it] 97%|█████████▋| 3732/3837 [11:32:12<19:23, 11.08s/it] 97%|█████████▋| 3733/3837 [11:32:26<20:15, 11.69s/it] 97%|█████████▋| 3734/3837 [11:32:37<19:58, 11.63s/it] 97%|█████████▋| 3735/3837 [11:32:49<19:43, 11.61s/it] 97%|█████████▋| 3736/3837 [11:33:00<19:28, 11.57s/it] 97%|█████████▋| 3737/3837 [11:33:10<18:24, 11.04s/it] 97%|█████████▋| 3738/3837 [11:33:21<18:26, 11.17s/it] 97%|█████████▋| 3739/3837 [11:33:31<17:44, 10.86s/it] 97%|█████████▋| 3740/3837 [11:33:43<17:47, 11.01s/it]                                                      {'loss': 3.2223, 'grad_norm': 12.86118221282959, 'learning_rate': 1.6757959520659616e-08, 'epoch': 0.97}
+ 97%|█████████▋| 3740/3837 [11:33:43<17:47, 11.01s/it] 97%|█████████▋| 3741/3837 [11:33:53<17:01, 10.64s/it] 98%|█████████▊| 3742/3837 [11:34:04<17:13, 10.88s/it] 98%|█████████▊| 3743/3837 [11:34:15<17:16, 11.03s/it] 98%|█████████▊| 3744/3837 [11:34:27<17:17, 11.16s/it] 98%|█████████▊| 3745/3837 [11:34:37<16:33, 10.80s/it] 98%|█████████▊| 3746/3837 [11:34:49<16:46, 11.06s/it] 98%|█████████▊| 3747/3837 [11:35:00<16:46, 11.18s/it] 98%|█████████▊| 3748/3837 [11:35:11<16:43, 11.28s/it] 98%|█████████▊| 3749/3837 [11:35:23<16:38, 11.35s/it] 98%|█████████▊| 3750/3837 [11:35:34<16:30, 11.39s/it]                                                      {'loss': 3.4439, 'grad_norm': 14.72098445892334, 'learning_rate': 1.3482289444934903e-08, 'epoch': 0.98}
+ 98%|█████████▊| 3750/3837 [11:35:34<16:30, 11.39s/it] 98%|█████████▊| 3751/3837 [11:35:44<15:36, 10.89s/it] 98%|█████████▊| 3752/3837 [11:35:56<15:43, 11.10s/it] 98%|█████████▊| 3753/3837 [11:36:07<15:40, 11.19s/it] 98%|█████████▊| 3754/3837 [11:36:17<14:57, 10.81s/it] 98%|█████████▊| 3755/3837 [11:36:29<15:03, 11.01s/it] 98%|█████████▊| 3756/3837 [11:36:40<15:05, 11.18s/it] 98%|█████████▊| 3757/3837 [11:36:50<14:23, 10.79s/it] 98%|█████████▊| 3758/3837 [11:37:00<13:50, 10.51s/it] 98%|█████████▊| 3759/3837 [11:37:11<14:00, 10.77s/it] 98%|█████████▊| 3760/3837 [11:37:23<14:08, 11.03s/it]                                                      {'loss': 3.3943, 'grad_norm': 16.50194549560547, 'learning_rate': 1.0562066646103707e-08, 'epoch': 0.98}
+ 98%|█████████▊| 3760/3837 [11:37:23<14:08, 11.03s/it] 98%|█████████▊| 3761/3837 [11:37:33<13:29, 10.65s/it] 98%|█████████▊| 3762/3837 [11:37:44<13:38, 10.91s/it] 98%|█████████▊| 3763/3837 [11:37:54<13:06, 10.63s/it] 98%|█████████▊| 3764/3837 [11:38:04<12:37, 10.38s/it] 98%|█████████▊| 3765/3837 [11:38:16<12:55, 10.77s/it] 98%|█████████▊| 3766/3837 [11:38:27<13:02, 11.03s/it] 98%|█████████▊| 3767/3837 [11:38:39<13:00, 11.16s/it] 98%|█████████▊| 3768/3837 [11:38:49<12:22, 10.76s/it] 98%|█████████▊| 3769/3837 [11:38:58<11:51, 10.47s/it] 98%|█████████▊| 3770/3837 [11:39:08<11:29, 10.30s/it]                                                      {'loss': 3.2021, 'grad_norm': 11.808096885681152, 'learning_rate': 7.997499282504373e-09, 'epoch': 0.98}
+ 98%|█████████▊| 3770/3837 [11:39:08<11:29, 10.30s/it] 98%|█████████▊| 3771/3837 [11:39:20<11:43, 10.66s/it] 98%|█████████▊| 3772/3837 [11:39:31<11:49, 10.91s/it] 98%|█████████▊| 3773/3837 [11:39:43<11:51, 11.12s/it] 98%|█████████▊| 3774/3837 [11:39:54<11:47, 11.23s/it] 98%|█████████▊| 3775/3837 [11:40:06<11:41, 11.31s/it] 98%|█████████▊| 3776/3837 [11:40:17<11:31, 11.34s/it] 98%|█████████▊| 3777/3837 [11:40:29<11:22, 11.37s/it] 98%|█████████▊| 3778/3837 [11:40:42<11:42, 11.90s/it] 98%|█████████▊| 3779/3837 [11:40:53<11:23, 11.79s/it] 99%|█████████▊| 3780/3837 [11:41:05<11:06, 11.69s/it]                                                      {'loss': 3.3199, 'grad_norm': 12.357420921325684, 'learning_rate': 5.788770160764512e-09, 'epoch': 0.98}
+ 99%|█████████▊| 3780/3837 [11:41:05<11:06, 11.69s/it] 99%|█████████▊| 3781/3837 [11:41:18<11:20, 12.15s/it] 99%|█████████▊| 3782/3837 [11:41:30<10:57, 11.95s/it] 99%|█████████▊| 3783/3837 [11:41:41<10:39, 11.84s/it] 99%|█████████▊| 3784/3837 [11:41:54<10:48, 12.24s/it] 99%|█████████▊| 3785/3837 [11:42:04<09:57, 11.49s/it] 99%|█████████▊| 3786/3837 [11:42:15<09:44, 11.46s/it] 99%|█████████▊| 3787/3837 [11:42:27<09:33, 11.48s/it] 99%|█████████▊| 3788/3837 [11:42:38<09:22, 11.47s/it] 99%|█████████▊| 3789/3837 [11:42:50<09:11, 11.49s/it] 99%|█████████▉| 3790/3837 [11:43:00<08:38, 11.03s/it]                                                      {'loss': 3.2891, 'grad_norm': 12.219795227050781, 'learning_rate': 3.93603672277032e-09, 'epoch': 0.99}
+ 99%|█████████▉| 3790/3837 [11:43:00<08:38, 11.03s/it] 99%|█████████▉| 3791/3837 [11:43:11<08:33, 11.16s/it] 99%|█████████▉| 3792/3837 [11:43:21<08:05, 10.79s/it] 99%|█████████▉| 3793/3837 [11:43:33<08:05, 11.04s/it] 99%|█████████▉| 3794/3837 [11:43:44<08:01, 11.20s/it] 99%|█████████▉| 3795/3837 [11:43:54<07:32, 10.77s/it] 99%|█████████▉| 3796/3837 [11:44:06<07:31, 11.00s/it] 99%|██��██████▉| 3797/3837 [11:44:16<07:05, 10.64s/it] 99%|█████████▉| 3798/3837 [11:44:27<07:05, 10.92s/it] 99%|█████████▉| 3799/3837 [11:44:37<06:42, 10.59s/it] 99%|█████████▉| 3800/3837 [11:44:49<06:42, 10.88s/it]                                                      {'loss': 3.2032, 'grad_norm': 12.849437713623047, 'learning_rate': 2.4394310344422188e-09, 'epoch': 0.99}
+ 99%|█████████▉| 3800/3837 [11:44:49<06:42, 10.88s/it] 99%|█████████▉| 3801/3837 [11:45:00<06:37, 11.04s/it] 99%|█████████▉| 3802/3837 [11:45:12<06:34, 11.27s/it] 99%|█████████▉| 3803/3837 [11:45:22<06:08, 10.83s/it] 99%|█████████▉| 3804/3837 [11:45:33<06:04, 11.04s/it] 99%|█████████▉| 3805/3837 [11:45:45<05:58, 11.20s/it] 99%|█████████▉| 3806/3837 [11:45:56<05:50, 11.30s/it] 99%|█████████▉| 3807/3837 [11:46:07<05:30, 11.03s/it] 99%|█████████▉| 3808/3837 [11:46:18<05:24, 11.18s/it] 99%|█████████▉| 3809/3837 [11:46:30<05:16, 11.29s/it] 99%|█████████▉| 3810/3837 [11:46:39<04:52, 10.84s/it]                                                      {'loss': 3.5092, 'grad_norm': 11.828692436218262, 'learning_rate': 1.299059776324052e-09, 'epoch': 0.99}
+ 99%|█████████▉| 3810/3837 [11:46:39<04:52, 10.84s/it] 99%|█████████▉| 3811/3837 [11:46:51<04:46, 11.03s/it] 99%|█████████▉| 3812/3837 [11:47:01<04:28, 10.73s/it] 99%|█████████▉| 3813/3837 [11:47:12<04:22, 10.95s/it] 99%|█████████▉| 3814/3837 [11:47:24<04:16, 11.15s/it] 99%|█████████▉| 3815/3837 [11:47:34<03:55, 10.72s/it] 99%|█████████▉| 3816/3837 [11:47:44<03:39, 10.47s/it] 99%|█████████▉| 3817/3837 [11:47:53<03:25, 10.27s/it]100%|█████████▉| 3818/3837 [11:48:02<03:03,  9.68s/it]100%|█████████▉| 3819/3837 [11:48:12<02:55,  9.73s/it]100%|█████████▉| 3820/3837 [11:48:23<02:54, 10.26s/it]                                                      {'loss': 3.2089, 'grad_norm': 15.673126220703125, 'learning_rate': 5.150042359752805e-10, 'epoch': 1.0}
+100%|█████████▉| 3820/3837 [11:48:23<02:54, 10.26s/it]100%|█████████▉| 3821/3837 [11:48:35<02:50, 10.67s/it]100%|█████████▉| 3822/3837 [11:48:46<02:43, 10.91s/it]100%|█████████▉| 3823/3837 [11:48:58<02:35, 11.07s/it]100%|█████████▉| 3824/3837 [11:49:07<02:18, 10.67s/it]100%|█████████▉| 3825/3837 [11:49:19<02:10, 10.88s/it]100%|█████████▉| 3826/3837 [11:49:30<02:01, 11.06s/it]100%|█████████▉| 3827/3837 [11:49:40<01:47, 10.72s/it]100%|█████████▉| 3828/3837 [11:49:50<01:33, 10.43s/it]100%|█████████▉| 3829/3837 [11:50:00<01:21, 10.24s/it]100%|█████████▉| 3830/3837 [11:50:11<01:14, 10.62s/it]                                                      {'loss': 3.2474, 'grad_norm': 11.875957489013672, 'learning_rate': 8.732030217895037e-11, 'epoch': 1.0}
+100%|█████████▉| 3830/3837 [11:50:11<01:14, 10.62s/it]100%|█████████▉| 3831/3837 [11:50:23<01:05, 10.88s/it]100%|█████████▉| 3832/3837 [11:50:34<00:55, 11.07s/it]100%|█████████▉| 3833/3837 [11:50:46<00:44, 11.20s/it]100%|█████████▉| 3834/3837 [11:50:56<00:32, 10.78s/it]100%|█████████▉| 3835/3837 [11:51:05<00:21, 10.53s/it]100%|█████████▉| 3836/3837 [11:51:17<00:10, 10.86s/it]100%|██████████| 3837/3837 [11:51:27<00:00, 10.60s/it]                                                      {'train_runtime': 42770.6847, 'train_samples_per_second': 5.742, 'train_steps_per_second': 0.09, 'train_loss': 4.158595516869945, 'epoch': 1.0}
+100%|██████████| 3837/3837 [11:52:50<00:00, 10.60s/it]100%|██████████| 3837/3837 [11:52:50<00:00, 11.15s/it]
+[rank0]:[W921 05:58:19.782182039 ProcessGroupNCCL.cpp:1250] Warning: WARNING: process group has NOT been destroyed before we destruct ProcessGroupNCCL. On normal program exit, the application should call destroy_process_group to ensure that any pending NCCL operations have finished in this process. In rare cases this process can exit before this point and block the progress of another member of the process group. This constraint has always been present,  but this warning has only been added since PyTorch 2.4 (function operator())