gair-prox (GAIR-ProX)

Organization Card

GAIR-ProX, a subsidiary of GAIR, spearheads the 🫐 ProX Project. This initiative aims to enhance pre-training efficiency by refining corpus documents using language models at scale. Through meticulous operations (e.g., document-level filtering and chunk-level cleaning), implemented as scalable, executable programs, 🫐 ProX seeks to improve pre-training data quality at scale, ultimately developing more robust and efficient language models.

Read our technical report!

Collections 4

models 14

datasets 4

gair-prox/RedPajama-pro

Viewer • Updated Sep 26 • 10.2M • 298 • 4

gair-prox/c4-pro

Viewer • Updated Sep 26 • 40.1M • 179 • 5

gair-prox/open-web-math-pro

Viewer • Updated Sep 26 • 2.58M • 588 • 9

gair-prox/FineWeb-pro

Viewer • Updated Sep 26 • 63.1M • 1.58k • 22

GAIR-ProX

AI & ML interests

Recent Activity

Collections 4

gair-prox/FineWeb-pro

gair-prox/open-web-math-pro

gair-prox/RedPajama-pro

gair-prox/c4-pro

gair-prox/web-doc-refining-lm

gair-prox/web-chunk-refining-lm

gair-prox/math-doc-refining-lm

gair-prox/math-chunk-refining-lm

models 14

gair-prox/web-chunk-refining-lm

gair-prox/math-chunk-refining-lm

gair-prox/math-doc-refining-lm

gair-prox/web-doc-refining-lm

gair-prox/RedPJ-ProX-1.7B

gair-prox/RedPJ-ProX-0.3B

gair-prox/C4-ProX-1.7B

gair-prox/CodeLlama-7B-ProXMath

gair-prox/TinyLlama-1.1B-ProXMath

gair-prox/Llama-2-7B-ProXMath

datasets 4

gair-prox/RedPajama-pro

gair-prox/c4-pro

gair-prox/open-web-math-pro

gair-prox/FineWeb-pro

AI & ML interests

Recent Activity

Team members 5

Collections 4

models 14 Sort: Recently updated

datasets 4 Sort: Recently updated

models 14

datasets 4