Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.09871

Papers - Training - Scaling - Bytes - BLT >= BPE Tokenizer

about 13 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Papers - Training - Scaling - Compute Optimal

about 13 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Papers - Attention - Flex Attention

https://pytorch.org/blog/flexattention/

about 13 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Papers - Embeddings - Bytes - BPB - Tokenzr Free Perplexity

about 15 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Papers - Embeddings - Bytes - Flops - Input Layer Lookup

about 15 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Papers - Training - Embeddings Model - Bytes - Entropy Model

about 15 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Papers - Attention - Bytes - Patch Cross Attention

about 16 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Papers - Attention - Bytes - MHA Cross Attention - Perceiver

about 16 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Papers - Embeddings - Text - Byte - Hash ngrams

about 16 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Papers - Attention - Block Causal

about 16 hours ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published 13 days ago • 75

Previous
1
2
3
4
5
...
8
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs