See axolotl config

axolotl version: 0.13.0.dev0

base_model: google/gemma-3-270m-it
# optionally might have model_type or tokenizer_type
model_type: AutoModelForCausalLM
tokenizer_type: AutoTokenizer
hub_model_id: skomadinajs/gemma-3-270m-it-emoji

# gemma3 doesn't seem to play nice with ddp
ddp_find_unused_parameters: true

load_in_8bit: false
load_in_4bit: true

# huggingface repo
chat_template: gemma3
eot_tokens:
  - <end_of_turn>
datasets:
  - path: kr15t3n/text2emoji
    type:
      system_prompt: "Translate this text to emoji:"
      field_instruction: text
      field_output: emoji

val_set_size: 0.1
output_dir: /workspace-data/output

adapter: qlora
lora_r: 16
lora_alpha: 32
lora_dropout: 0.05
lora_target_linear: true

sequence_len: 256
sample_packing: false
eval_sample_packing: false


wandb_project: gemma-3-270m-qlora-002
wandb_entity:
wandb_watch:
wandb_name:
wandb_log_model:


gradient_accumulation_steps: 1
micro_batch_size: 4
num_epochs: 3
optimizer: adamw_torch_fused
lr_scheduler: constant
learning_rate: 0.00005

bf16: auto
tf32: true

gradient_checkpointing: false
resume_from_checkpoint:
logging_steps: 1
flash_attention: true

warmup_ratio: 0.0
evals_per_epoch: 1
saves_per_epoch: 1
weight_decay: 0.01
special_tokens:

gemma-3-270m-it-emoji

This model is a fine-tuned version of google/gemma-3-270m-it on the kr15t3n/text2emoji dataset. It achieves the following results on the evaluation set:

Loss: 2.3954
Memory/max Active (gib): 1.05
Memory/max Allocated (gib): 1.05
Memory/device Reserved (gib): 1.47

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-05
train_batch_size: 4
eval_batch_size: 4
seed: 42
optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: constant
lr_scheduler_warmup_steps: 51
training_steps: 1707

Training results

Training Loss	Epoch	Step	Validation Loss	Active (gib)	Allocated (gib)	Reserved (gib)
No log	0	0	8.3493	1.02	1.02	1.57
2.9462	1.0	569	2.5616	1.05	1.05	1.53
2.2067	2.0	1138	2.4661	1.05	1.05	1.47
1.9333	3.0	1707	2.3954	1.05	1.05	1.47

Framework versions

PEFT 0.17.1
Transformers 4.57.1
Pytorch 2.8.0+cu128
Datasets 4.0.0
Tokenizers 0.22.1

Downloads last month: 5

Model tree for skomadinajs/gemma-3-270m-it-emoji

Base model

google/gemma-3-270m

Finetuned

google/gemma-3-270m-it

Adapter

(34)

this model

skomadinajs
/

gemma-3-270m-it-emoji

gemma-3-270m-it-emoji

Model description

Intended uses & limitations

Training and evaluation data

Training procedure

Training hyperparameters

Training results

Framework versions

Model tree for skomadinajs/gemma-3-270m-it-emoji

Dataset used to train skomadinajs/gemma-3-270m-it-emoji

Evaluation results