nanowell's picture

nanowell

nanowell

·

nanowell

AI & ML interests

None yet

Recent Activity

liked a dataset 5 days ago

HuggingFaceTB/finemath

upvoted a paper 7 days ago

Qwen2.5 Technical Report

liked a model 8 days ago

GoodiesHere/Apollo-LMMs-Apollo-1_5B-t32

View all activity

Organizations

nanowell's activity

upvoted a paper 7 days ago

Qwen2.5 Technical Report

Paper • 2412.15115 • Published 7 days ago • 328

upvoted a paper 4 months ago

Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

Paper • 2408.06195 • Published Aug 12 • 63

upvoted 4 papers 10 months ago

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27 • 604

Orca-Math: Unlocking the potential of SLMs in Grade School Math

Paper • 2402.14830 • Published Feb 16 • 24

Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition

Paper • 2402.15504 • Published Feb 23 • 21

OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

Paper • 2402.14658 • Published Feb 22 • 82

upvoted 10 papers 11 months ago

StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback

Paper • 2402.01391 • Published Feb 2 • 41

Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Paper • 2402.00159 • Published Jan 31 • 61

OLMo: Accelerating the Science of Language Models

Paper • 2402.00838 • Published Feb 1 • 82

Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens

Paper • 2401.17377 • Published Jan 30 • 35

SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Paper • 2401.15024 • Published Jan 26 • 69

From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities

Paper • 2401.15071 • Published Jan 26 • 35

Unitxt: Flexible, Shareable and Reusable Data Preparation and Evaluation for Generative AI

Paper • 2401.14019 • Published Jan 25 • 21

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25 • 47

Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

Paper • 2401.13795 • Published Jan 24 • 66

Rethinking Patch Dependence for Masked Autoencoders

Paper • 2401.14391 • Published Jan 25 • 23

upvoted 3 papers 12 months ago

MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Paper • 2401.04081 • Published Jan 8 • 70

Mixtral of Experts

Paper • 2401.04088 • Published Jan 8 • 158

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5 • 41

upvoted a paper about 1 year ago

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 257