InternalDataOrg

non-profit

AI & ML interests

None defined yet.

JiangYi

authored a paper 3 months ago

DetailFlow: 1D Coarse-to-Fine Autoregressive Image Generation via Next-Detail Prediction

Paper • 2505.21473 • Published May 27 • 16

JiangYi

authored 10 papers 6 months ago

DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion

Paper • 2111.14690 • Published Nov 29, 2021

OmniTokenizer: A Joint Image-Video Tokenizer for Visual Generation

Paper • 2406.09399 • Published Jun 13, 2024

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

Paper • 2011.12450 • Published Nov 25, 2020

TokenFlow: Unified Image Tokenizer for Multimodal Understanding and Generation

Paper • 2412.03069 • Published Dec 4, 2024 • 36

Infinity: Scaling Bitwise AutoRegressive Modeling for High-Resolution Image Synthesis

Paper • 2412.04431 • Published Dec 5, 2024 • 18

Liquid: Language Models are Scalable Multi-modal Generators

Paper • 2412.04332 • Published Dec 5, 2024 • 3

Goku: Flow Based Video Generative Foundation Models

Paper • 2502.04896 • Published Feb 7 • 106

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Paper • 2502.05179 • Published Feb 7 • 24

Language as Queries for Referring Video Object Segmentation

Paper • 2201.00487 • Published Jan 3, 2022

UniTok: A Unified Tokenizer for Visual Generation and Understanding

Paper • 2502.20321 • Published Feb 27 • 30

RhettGee

authored 2 papers 6 months ago

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Paper • 2502.05179 • Published Feb 7 • 24

Goku: Flow Based Video Generative Foundation Models

Paper • 2502.04896 • Published Feb 7 • 106

JiangYi

authored a paper about 1 year ago

Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

Paper • 2406.06525 • Published Jun 10, 2024 • 72

JiangYi

authored 6 papers over 1 year ago

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

Paper • 2404.13013 • Published Apr 19, 2024 • 32

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Paper • 2404.02905 • Published Apr 3, 2024 • 74

UniRef++: Segment Every Reference Object in Spatial and Temporal Spaces

Paper • 2312.15715 • Published Dec 25, 2023 • 21

General Object Foundation Model for Images and Videos at Scale

Paper • 2312.09158 • Published Dec 14, 2023 • 12

Recognize Any Regions

Paper • 2311.01373 • Published Nov 2, 2023 • 1

EGC: Image Generation and Classification via a Diffusion Energy-Based Model

Paper • 2304.02012 • Published Apr 4, 2023 • 1