Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.11768

Papers - Training - SGD - Decoupled Weight Decay

No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41

Papers - Training - PyTorch

No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41

Papers - Training - LR - Gradient Local Gain - Variance

No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41

Papers - Training - LR - Gradient Signal to Noise Ratio

No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41

Papers - Training - Layer Initialization

No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41

Papers - Training - LR - Learning Rate

No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41

Papers - Training - Adam

No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41

Papers - Training - Optimizers

No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41

No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41
TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

Paper • 2412.14161 • Published 7 days ago • 43
HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

Paper • 2408.10945 • Published Aug 20 • 9
PDFTriage: Question Answering over Long, Structured Documents

Paper • 2309.08872 • Published Sep 16, 2023 • 53

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Paper • 2412.13663 • Published 8 days ago • 103
A Survey of Small Language Models

Paper • 2410.20011 • Published Oct 25 • 40
No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published 10 days ago • 41

Previous
1
2
3
4
5
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs