33 49 64

Lin Chen

Lin-Chen

https://lin-chen.site

AI & ML interests

None yet

Recent Activity

upvoted a paper 13 days ago

Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

upvoted a paper about 2 months ago

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

upvoted a paper 2 months ago

Video World Models with Long-term Spatial Memory

View all activity

Organizations

upvoted a paper 13 days ago

Beyond Fixed: Variable-Length Denoising for Diffusion Large Language Models

Paper • 2508.00819 • Published 16 days ago • 62

upvoted a paper about 2 months ago

ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Paper • 2506.19848 • Published Jun 24 • 26

upvoted a paper 2 months ago

Video World Models with Long-term Spatial Memory

Paper • 2506.05284 • Published Jun 5 • 53

upvoted 5 papers 3 months ago

VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning

Paper • 2505.22019 • Published May 28 • 11

upvoted an article 4 months ago

Article

FineVideo: behind the scenes

and 5 others •

Sep 23, 2024

• 34

upvoted 2 papers 4 months ago

MM-IFEngine: Towards Multimodal Instruction Following

Paper • 2504.07957 • Published Apr 10 • 34

VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

Paper • 2504.07956 • Published Apr 10 • 48

upvoted 3 papers 6 months ago

Visual-RFT: Visual Reinforcement Fine-Tuning

Paper • 2503.01785 • Published Mar 3 • 82

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Paper • 2502.08590 • Published Feb 12 • 44

VideoRoPE: What Makes for Good Video Rotary Position Embedding?

Paper • 2502.05173 • Published Feb 7 • 66

upvoted a paper 8 months ago

InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

Paper • 2412.09596 • Published Dec 12, 2024 • 99

upvoted a paper 9 months ago

Open-Sora Plan: Open-Source Large Video Generation Model

Paper • 2412.00131 • Published Nov 28, 2024 • 34

upvoted a collection 9 months ago

Qwen2-VL

Collection

Vision-language model series based on Qwen2 • 16 items • Updated 27 days ago • 224

upvoted 3 papers 10 months ago

MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

Paper • 2410.17637 • Published Oct 23, 2024 • 37

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

Paper • 2410.16268 • Published Oct 21, 2024 • 70

PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction

Paper • 2410.17247 • Published Oct 22, 2024 • 48

Lin Chen

AI & ML interests

Recent Activity

Organizations

Lin-Chen's activity

FineVideo: behind the scenes