Silin Chen's picture

2 17 3

Silin Chen

Silin-Chen

·

AI & ML interests

NLP, LLM, DM

Organizations

None yet

upvoted 4 papers 2 months ago

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

Paper • 2406.15877 • Published Jun 22, 2024 • 48

Vibe Checker: Aligning Code Evaluation with Human Preference

Paper • 2510.07315 • Published Oct 8 • 32

LongCodeZip: Compress Long Context for Code Language Models

Paper • 2510.00446 • Published Oct 1 • 108

From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging

Paper • 2410.01215 • Published Oct 2, 2024 • 39

upvoted 3 papers 3 months ago

SWE-QA: Can Language Models Answer Repository-level Code Questions?

Paper • 2509.14635 • Published Sep 18 • 35

SWE-bench Goes Live!

Paper • 2505.23419 • Published May 29 • 21

LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues

Paper • 2411.13941 • Published Nov 21, 2024 • 1

upvoted a paper 4 months ago

Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

Paper • 2508.05988 • Published Aug 8 • 19

upvoted an article 4 months ago

Article

Detecting Machine-Generated Code: Unveiling Patterns in AI-Generated Programming

Jul 2

•

2

upvoted 2 papers 4 months ago

SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution

Paper • 2507.23348 • Published Jul 31 • 11

SWE-Exp: Experience-Driven Software Issue Resolution

Paper • 2507.23361 • Published Jul 31 • 13

upvoted a paper 7 months ago

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Paper • 2501.12895 • Published Jan 22 • 61

upvoted 3 papers 8 months ago

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Paper • 2504.06514 • Published Apr 9 • 39

Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving

Paper • 2504.02605 • Published Apr 3 • 48

Agent Workflow Memory

Paper • 2409.07429 • Published Sep 11, 2024 • 32

upvoted 2 papers 9 months ago

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

Paper • 2503.18878 • Published Mar 24 • 119

Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training

Paper • 2501.11425 • Published Jan 20 • 109