new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jul 1

Submitted by

Flourish

Ovis-U1 Technical Report

·
12 authors

Submitted by

Benjamin-eecs

SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning

·
12 authors

Submitted by

jianzongwu

VMoBA: Mixture-of-Block Attention for Video Diffusion Models

·
8 authors

Submitted by

Meme145

Calligrapher: Freestyle Text Image Customization

·
11 authors

Submitted by

alexgambashidze

Listener-Rewarded Thinking in VLMs for Image Preferences

·
8 authors

1

Submitted by

Jianyu

Evolving Prompts In-Context: An Open-ended, Self-replicating Perspective

·
3 authors

2

Submitted by

a-yakovenko

MEMFOF: High-Resolution Training for Memory-Efficient Multi-Frame Optical Flow Estimation

·
4 authors

Submitted by

wanhaoliu

Consistent Time-of-Flight Depth Denoising via Graph-Informed Geometric Attention

·
4 authors

2

Submitted by

Skhaki

SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity

·
10 authors

Submitted by

Mingyuan1997

Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?

·
8 authors

1

Submitted by

mdmoor

MARBLE: A Hard Benchmark for Multimodal Spatial Reasoning and Planning

·
4 authors

Submitted by

najoungkim

RExBench: Can coding agents autonomously implement AI research extensions?

·
7 authors

Submitted by

JJ-TMT

UrbanLLaVA: A Multi-modal Large Language Model for Urban Intelligence with Spatial Reasoning and Understanding

·
5 authors

Submitted by

s-emanuilov

Teaching a Language Model to Speak the Language of Tools

·
1 authors

Submitted by

liuhuadai

ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing

·
7 authors

Submitted by

JJ-TMT

RoboScape: Physics-informed Embodied World Model

·
7 authors

Submitted by

RaghavvGoel

VOCABTRIM: Vocabulary Pruning for Efficient Speculative Decoding in LLMs

·
12 authors

Submitted by

jmprcp

Tower+: Bridging Generality and Translation Specialization in Multilingual LLMs

·
7 authors

1

Submitted by

XiaoyunYuan

Degradation-Modeled Multipath Diffusion for Tunable Metalens Photography

·
5 authors