Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2510.08558

Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6 • 494
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Paper • 2509.25541 • Published Sep 29 • 140
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

Paper • 2509.25454 • Published Sep 29 • 139

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Paper • 2510.11696 • Published Oct 13 • 176

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Paper • 2509.23768 • Published Sep 28 • 48
Training-Free Group Relative Policy Optimization

Paper • 2510.08191 • Published Oct 9 • 44
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266

Large Reasoning Models Learn Better Alignment from Flawed Thinking

Paper • 2510.00938 • Published Oct 1 • 58
What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

Paper • 2509.19284 • Published Sep 23 • 22
Learning to Reason as Action Abstractions with Scalable Mid-Training RL

Paper • 2509.25810 • Published Sep 30 • 5
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266

Statistical Methods in Generative AI

Paper • 2509.07054 • Published Sep 8 • 11
Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Paper • 2509.07980 • Published Sep 9 • 101
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

Paper • 2511.17592 • Published 21 days ago • 118

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

Paper • 2509.02547 • Published Sep 2 • 225
Scaling Agents via Continual Pre-training

Paper • 2509.13310 • Published Sep 16 • 117
Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Paper • 2508.03680 • Published Aug 5 • 121

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Paper • 2509.23768 • Published Sep 28 • 48
LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

Paper • 2510.08211 • Published Oct 9 • 22

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks

Paper • 2510.08002 • Published Oct 9 • 23
Self-Improving LLM Agents at Test-Time

Paper • 2510.07841 • Published Oct 9 • 9
The Denario project: Deep knowledge AI agents for scientific discovery

Paper • 2510.26887 • Published Oct 30 • 6

Training Research

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Paper • 2509.22638 • Published Sep 26 • 70
Don't Just Fine-tune the Agent, Tune the Environment

Paper • 2510.10197 • Published Oct 11 • 28
Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

Paper • 2510.08673 • Published Oct 9 • 125
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266

Open Data Synthesis For Deep Research

Paper • 2509.00375 • Published Aug 30 • 70
Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

Paper • 2509.03403 • Published Sep 3 • 22
LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations

Paper • 2509.03405 • Published Sep 3 • 23
SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs

Paper • 2509.00930 • Published Aug 31 • 4

Less is More: Recursive Reasoning with Tiny Networks

Paper • 2510.04871 • Published Oct 6 • 494
Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Paper • 2509.25541 • Published Sep 29 • 140
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search

Paper • 2509.25454 • Published Sep 29 • 139

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

Paper • 2509.02547 • Published Sep 2 • 225
Scaling Agents via Continual Pre-training

Paper • 2509.13310 • Published Sep 16 • 117
Agent Lightning: Train ANY AI Agents with Reinforcement Learning

Paper • 2508.03680 • Published Aug 5 • 121

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Paper • 2510.11696 • Published Oct 13 • 176

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
MemMamba: Rethinking Memory Patterns in State Space Model

Paper • 2510.03279 • Published Sep 28 • 72
From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Paper • 2509.23768 • Published Sep 28 • 48
LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions

Paper • 2510.08211 • Published Oct 9 • 22

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Paper • 2509.23768 • Published Sep 28 • 48
Training-Free Group Relative Policy Optimization

Paper • 2510.08191 • Published Oct 9 • 44
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266

Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks

Paper • 2510.08002 • Published Oct 9 • 23
Self-Improving LLM Agents at Test-Time

Paper • 2510.07841 • Published Oct 9 • 9
The Denario project: Deep knowledge AI agents for scientific discovery

Paper • 2510.26887 • Published Oct 30 • 6

Large Reasoning Models Learn Better Alignment from Flawed Thinking

Paper • 2510.00938 • Published Oct 1 • 58
What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT

Paper • 2509.19284 • Published Sep 23 • 22
Learning to Reason as Action Abstractions with Scalable Mid-Training RL

Paper • 2509.25810 • Published Sep 30 • 5
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266

Training Research

Language Models Can Learn from Verbal Feedback Without Scalar Rewards

Paper • 2509.22638 • Published Sep 26 • 70
Don't Just Fine-tune the Agent, Tune the Environment

Paper • 2510.10197 • Published Oct 11 • 28
Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

Paper • 2510.08673 • Published Oct 9 • 125
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266

Statistical Methods in Generative AI

Paper • 2509.07054 • Published Sep 8 • 11
Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Paper • 2509.07980 • Published Sep 9 • 101
Agent Learning via Early Experience

Paper • 2510.08558 • Published Oct 9 • 266
GigaEvo: An Open Source Optimization Framework Powered By LLMs And Evolution Algorithms

Paper • 2511.17592 • Published 21 days ago • 118

Open Data Synthesis For Deep Research

Paper • 2509.00375 • Published Aug 30 • 70
Beyond Correctness: Harmonizing Process and Outcome Rewards through RL Training

Paper • 2509.03403 • Published Sep 3 • 22
LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations

Paper • 2509.03405 • Published Sep 3 • 23
SATQuest: A Verifier for Logical Reasoning Evaluation and Reinforcement Fine-Tuning of LLMs

Paper • 2509.00930 • Published Aug 31 • 4

Previous
1
2
3
4
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs