fzkun/MiniMind2-Small · Hugging Face

此开源项目旨在完全从0开始，仅用3块钱成本 + 2小时！即可训练出仅为25.8M的超小语言模型MiniMind。
MiniMind系列极其轻量，最小版本体积是 GPT-3 的 $\frac{1}{7000}$，力求做到最普通的个人GPU也可快速训练。
项目同时开源了大模型的极简结构-包含拓展共享混合专家(MoE)、数据集清洗、预训练(Pretrain)、监督微调(SFT)、LoRA微调，直接偏好强化学习(DPO)算法、模型蒸馏算法等全过程代码。
MiniMind同时拓展了视觉多模态的VLM: MiniMind-V。
项目所有核心算法代码均从0使用PyTorch原生重构！不依赖第三方库提供的抽象接口。
这不仅是大语言模型的全阶段开源复现，也是一个入门LLM的教程。
希望此项目能为所有人提供一个抛砖引玉的示例，一起感受创造的乐趣！推动更广泛AI社区的进步！

为防止误解，“2小时” 基于NVIDIA 3090硬件设备（单卡）测试，“3块钱” 指GPU服务器租用成本，具体规格详情见下文。

fzkun
/

MiniMind2-Small