Models

521

Full-text search

Active filters: rlhf

Tamil-ai/tamil-qwen25-14b-morph-rlmv

Text Generation • 15B • Updated Mar 11 • 5

littlekoyo/MotionCritic

AIJian/PaTaRM-8B

Text Generation • 0.5B • Updated Apr 2 • 118

AIJian/PaTaRM-14B

Text Generation • 0.5B • Updated Apr 1 • 99

mradermacher/PaTaRM-8B-GGUF

8B • Updated Apr 1 • 67

DataPilot/ArrowCanaria-Llama-8B-RL-v0.1

Text Generation • 8B • Updated Mar 21 • 77 • 7

mradermacher/ArrowCanaria-Llama-8B-RL-v0.1-GGUF

8B • Updated Mar 21 • 123 • 1

mradermacher/ArrowCanaria-Llama-8B-RL-v0.1-i1-GGUF

8B • Updated Mar 22 • 533 • 2

DEAR-Tao/Qwen2.5-1.5B-Instruct-GRPO-think-lora

Reinforcement Learning • 2B • Updated Mar 23 • 21

usama10/qwen-7b-reward-model

Text Classification • Updated Mar 23

sttjr/paganini-qwen35-27b-grpo-lora

Reinforcement Learning • Updated Mar 23

vadimbelsky/qwen3.5-medical-ft-stage3-dpo

Image-Text-to-Text • 10B • Updated Mar 30 • 77

adinetwork/adi-v0.1-base

Text Generation • Updated Mar 25

CraneAILabs/luganda-reward-model

Text Classification • 1.0B • Updated 24 days ago • 74

Shubhamw11/gemma-3-270m-dpo-negative

Updated Apr 2 • 20 • 1

yaoyuanlf/Qwen2.5-VL-7B-Physics-RLHF

Image-Text-to-Text • 8B • Updated 26 days ago • 21

jang1563/biorlhf-grpo-mistral-7b

Text Generation • Updated 29 days ago • 14

pranav6905/Llama-3.2-1B-DPO-DPOMix-Adapters

Updated 25 days ago • 73

pranav6905/llama-1b-sft-dpo-final

1B • Updated 25 days ago

WisdomShell/GRIP-Llama-3-8B

Text Generation • 8B • Updated 19 days ago • 781 • 2

mr3haque/SLM-RL-Agents

Text Generation • Updated 3 days ago

mradermacher/GRIP-Llama-3-8B-GGUF

8B • Updated 20 days ago • 937 • 1

mradermacher/GRIP-Llama-3-8B-i1-GGUF

8B • Updated 20 days ago • 4.34k

retofan23333/UniDG-RFT-LoRA-Release

Image-to-Image • Updated 17 days ago

whalexdfsa/open-rs2-GPRA

Text Generation • Updated 16 days ago

arvindcr4/tinker-rl-arch_gsm8k_gpt-oss-20b-gpt-oss-20b

Reinforcement Learning • Updated 14 days ago

arvindcr4/tinker-rl-arch_gsm8k_kimi-k2-kimi-k2

Reinforcement Learning • Updated 14 days ago

arvindcr4/tinker-rl-arithmetic_trajectory-llama-3.2-1b

Reinforcement Learning • Updated 14 days ago

arvindcr4/tinker-rl-atropos_notebook-qwen3-8b-base

Reinforcement Learning • Updated 14 days ago

arvindcr4/tinker-rl-cross_tool_llama-8b-inst-llama-8b-inst

Reinforcement Learning • Updated 14 days ago