new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Mar 27

Submitted by

wchengad

PixelSmile: Toward Fine-Grained Facial Expression Editing

Fudan-University

Fudan University

Submitted by

taesiri

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

internlm

Intern Large Models

Submitted by

k-sobolev

Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration

Visual Generative AI group

Submitted by

wchengad

RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

SUSTech

Southern university of science and technology

Submitted by

taesiri

Voxtral TTS

mistralai

Submitted by

Azily

MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data

hkuhk

The University of Hong Kong

Submitted by

Virgilllll

MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens

EverMindAI

Submitted by

gabeorlanski

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

uw-madison

University of Wisconsin - Madison

Submitted by

tavihalperin

AVControl: Efficient Framework for Training Audio-Visual Controls

Lightricks

Submitted by

zixianma

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

University of Washington

Submitted by

taesiri

Less Gaussians, Texture More: 4K Feed-Forward Textured Splatting

apple

Submitted by

mucai

MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

Wisconsin

University of Wisconsin - Madison

Submitted by

ventr1c

MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

·
8 authors

Submitted by

jiwook919

Representation Alignment for Just Image Transformers is not Easier than You Think

kaist-ai

Submitted by

amazingj

FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

DianJin

2

Submitted by

akhaliq

AVO: Agentic Variation Operators for Autonomous Evolutionary Search

·
23 authors

Submitted by

taesiri

Vega: Learning to Drive with Natural Language Instructions

·
6 authors

Submitted by

ligongh

S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

RedHatAI

Submitted by

Yuqian-Fu

Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

automationGisiyuan

Institute of Automation,chinese academy of science

Submitted by

risashinoda

BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

·
6 authors

Submitted by

SeokminLee-Chris

Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition

·
4 authors

Submitted by

dkliang

Electrostatic Photoluminescence Tuning in All-Solid-State Perovskite Transistors

·
5 authors

Submitted by

neikos00

PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

tue-mps

Mobile Perception Systems Lab

Submitted by

songdj

Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math

·
9 authors

Submitted by

ishapuri

Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

MIT

Massachusetts Institute of Technology

Submitted by

MemorySlices

WAFT-Stereo: Warping-Alone Field Transforms for Stereo Matching

princeton-vl

Princeton Vision and Learning Lab

Submitted by

zenyn

Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

NTU

National Taiwan University

2

Submitted by

Onemiss

Extending Precipitation Nowcasting Horizons via Spectral Fusion of Radar Observations and Foundation Model Priors

·
6 authors

IQuest-Coder-V1 Technical Report

IQuestLab