yzhangcs (Yu Zhang)

upvoted a paper 2 months ago

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

Paper • 2506.09991 • Published Jun 11 • 56

upvoted a paper 3 months ago

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Paper • 2506.01939 • Published Jun 2 • 177

upvoted a paper 5 months ago

DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ

Paper • 2405.15306 • Published May 24, 2024 • 8

upvoted a paper 6 months ago

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

Paper • 2502.07563 • Published Feb 11 • 24

upvoted a collection 6 months ago

Deepseek Papers

Collection

Deepseek papers collection • 24 items • Updated 13 days ago • 268

upvoted 2 papers 7 months ago

OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Paper • 2411.04905 • Published Nov 7, 2024 • 127

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Paper • 2501.12895 • Published Jan 22 • 62

upvoted a collection 7 months ago

YuLan-Mini

Collection

A highly capable 2.4B lightweight LLM using only 1T pre-training data with all details. • 6 items • Updated Apr 14 • 16

upvoted a paper 7 months ago

Tensor Product Attention Is All You Need

Paper • 2501.06425 • Published Jan 11 • 89

upvoted an article 8 months ago

Article

Saving Memory Using Padding-Free Transformer Layers during Finetuning

By

•

Jun 11, 2024

• 18

upvoted a collection 8 months ago

OLMo 2

Collection

Artifacts for the OLMo 2 release. • 35 items • Updated May 1 • 138

upvoted 2 papers 8 months ago

Multimodal Latent Language Modeling with Next-Token Diffusion

Paper • 2412.08635 • Published Dec 11, 2024 • 46

Gated Delta Networks: Improving Mamba2 with Delta Rule

Paper • 2412.06464 • Published Dec 9, 2024 • 12

upvoted 3 papers 9 months ago

upvoted a paper 11 months ago

Gated Linear Attention Transformers with Hardware-Efficient Training

Paper • 2312.06635 • Published Dec 11, 2023 • 7

upvoted a collection 11 months ago

GSA

Collection

3 items • Updated Mar 18 • 2

upvoted a paper 11 months ago

Gated Slot Attention for Efficient Linear-Time Sequence Modeling

Paper • 2409.07146 • Published Sep 11, 2024 • 21

upvoted a paper 12 months ago

Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler

Paper • 2408.13359 • Published Aug 23, 2024 • 25

Yu Zhang

AI & ML interests

Organizations

Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

DeTikZify: Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ

LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

Deepseek Papers

OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

YuLan-Mini

Tensor Product Attention Is All You Need

Saving Memory Using Padding-Free Transformer Layers during Finetuning

OLMo 2

Multimodal Latent Language Modeling with Next-Token Diffusion

Gated Delta Networks: Improving Mamba2 with Delta Rule

RedPajama: an Open Dataset for Training Large Language Models

Hierarchically Gated Recurrent Neural Network for Sequence Modeling

Qwen2-Audio Technical Report

Gated Linear Attention Transformers with Hardware-Efficient Training

GSA

Gated Slot Attention for Efficient Linear-Time Sequence Modeling

Power Scheduler: A Batch Size and Token Number Agnostic Learning Rate Scheduler

Yu Zhang

AI & ML interests

Organizations

yzhangcs's activity

Saving Memory Using Padding-Free Transformer Layers during Finetuning