Edit model card

You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

Mengzi3-8B

以创新为引擎,驱动 AI 生态的可持续发展!

在 Mengzi3-13B 大模型 3 月底开源后不久,澜舟科技全新推出的又一款轻量化大模型——Mengzi3-8B,现已正式开源!并同样支持免费商用。这款模型在多个应用场景中,包括写作、代码、摘要以及阅读理解等,均展现出与 Mengzi3-13B 相媲美的性能,而模型参数规模更为精简,更适合个人开发者和 AI 爱好者使用。

Mengzi3-8B 适用于多种自然语言处理任务,主要包括:

  • 文本生成:能够轻松产出高质量、多样化的中文文本内容,涵盖写作,摘要,问答,翻译,阅读理解等多种文本生成场景;
  • 对话系统:为用户提供高效、智能的交互体验,让对话更加流畅自然;
  • 代码生成:协助开发者提升编码效率,激发创新灵感。

核心优势

  • 低显存高推理,具备更高效能

Mengzi3-8B 是一款高效、低显存需求的 AI 大模型,半精度下显存占用小于 16G,适用于 PC(如 MacBook)和大部分消费级显卡(如 RTX 4090、RTX 4080、RTX 4070Ti)。此外,Mengzi3-8B 的原生推理速度在同级别模型中处于领先地位,特别适合个人开发者和 AI 爱好者使用,真正实现了高效、低成本的 AI 体验。

  • 知识处理效果卓越

Mengzi3-8B 在中文能力(CMMLU)、英语、世界知识(MMLU)、编程及数学等多个领域的知识处理和问题解决能力中,均显著超越同尺寸开源模型,展现出全面的领先实力。

评测集 Mengzi3-8B-Base Mistral-7B Llama3-8B Baichuan2-7B Yi-1.5-9B Qwen1.5-7B
MMLU 73.67 64.1 66.6 54.16 69.5 61.0
CMMLU 77.54 44.7 49.21 57.07 74.8 73.1
GSM8K 76.29 47.5 50.04 9.17 73.7 62.5
HUMANEVAL 48.78 27.4 36.59 9.20 41.4 36.0
MBPP 43.20 38.6 34.2 6.60 61.1 37.4

使用指南

开源地址

欢迎大家访问 Mengzi3-8B 的开源仓库以获取更多信息并下载使用,体验其强大的功能。

快速开始:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-8B-Base", use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-8B-Base", device_map="auto", trust_remote_code=True)
inputs = tokenizer('输入:介绍一下孟子。输出:', return_tensors='pt')
if torch.cuda.is_available():
    inputs = inputs.to('cuda')
pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)
print(tokenizer.decode(pred[0], skip_special_tokens=True))
"""孟子(约公元前372年—约公元前289年),名轲,字子舆,战国时期邹国人,伟大的思想家、教育家,儒家学派的代表人物,与孔子并称“孔孟”。孟子继承和发展了孔子的思想,成为仅次于孔子的一代儒家宗师,对后世中国文化的影
响全面而巨大,有“亚圣”之称,与孔子合称为“孔孟”。"""

我们很诚挚地邀请各位 AI 开发者和爱好者体验使用 Mengzi3-8B 模型,如在使用过程中遇到任何问题或希望给予宝贵的反馈,请随时与我们联系。对于企业用户,对稳定性和模型参数量有更高需求的,建议了解 Mengzi3-13B

大模型的开源不仅为 AI 创新注入了新的活力,更在不断完善开源生态的进程中发挥着关键作用。我们希望能在推动技术创新、促进业务场景应用、完善数字经济与开源生态等方面积极贡献,以期更好地应对未来 AI 技术的挑战,共同推动行业的持续进步和发展。

👇 扫码加入孟子开源社区微信群

Downloads last month
3
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.