dots.llm1 : 小红书hi lab开源的文本大模型
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
dots.llm1 是小红书 hi lab(Humane Intelligence Lab)开源的中等规模文本大模型,采用 MoE(Mixture of Experts)架构,总参数量为 1420 亿,激活参数量为 140 亿。该模型在 11.2 万亿高质量非合成 token 数据上进行预训练,性能可与 Qwen2.5-72B 等更大规模模型媲美。dots.llm1 支持中英文多轮对话、知识理解、问答、复杂指令遵循以及数学和编码推理任务,适用于多种自然语言处理场景。

功能特点
- 高效稀疏激活:
- MoE 架构通过动态路由机制,仅激活部分专家网络,显著降低计算成本,同时保持高性能。
- 高质量训练数据:
- 使用 11.2 万亿非合成高质量 token 数据,涵盖中英文,数据经过严格筛选和处理,确保多样性和知识性。
- 长上下文支持:
- 支持 32K 上下文长度,适用于长文本生成和理解任务。
- 多任务能力:
- 在多语言多轮对话、知识问答、数学推理和代码生成等任务上表现优异。
优缺点
优点:
- 高效性:稀疏激活机制大幅降低计算成本,适合资源受限场景。
- 高质量:非合成训练数据确保模型输出真实可靠。
- 灵活性:支持多种任务,适用于多种应用场景。
缺点:
- 模型规模限制:相比更大规模的密集模型,参数总量较小,可能影响复杂任务的表现。
- 依赖数据质量:模型性能高度依赖训练数据的质量,数据偏差可能影响输出。
如何使用
- 环境准备:
- 安装 Python 和 PyTorch,确保支持 CUDA。
- 安装依赖库:
transformers
、vllm
、accelerate
等。
- 模型加载:from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained(“rednote-hilab/dots.llm1.base”, trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained(“rednote-hilab/dots.llm1.base”)
- 推理示例:inputs = tokenizer(“Write a poem about AI.”, return_tensors=”pt”) outputs = model.generate(**inputs, max_new_tokens=512) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- 部署选项:
- 使用
vLLM
或SGLang
进行高效推理。 - 支持通过 Docker 镜像快速部署。
- 使用
框架技术原理
- MoE 架构:
- 模型由 128 个路由专家和 2 个共享专家组成,每个专家网络是一个两层前馈网络,使用 SwiGLU 激活函数。
- 动态路由机制根据输入标记选择 6 个最相关的专家网络,加上 2 个共享专家,总共激活 8 个专家网络。
- 注意力机制:
- 采用多头注意力机制(MHA),并引入 RMSNorm 归一化操作,提升模型稳定性。
- 负载平衡策略:
- 引入无辅助损失的负载平衡策略,通过动态调整偏置项确保专家网络负载均衡。
- 训练优化:
- 使用 AdamW 优化器,结合 warmup-stable-decay 学习率计划,逐步增加批量大小以提升训练效率。
创新点
- 高效稀疏激活:
- 通过 MoE 架构实现稀疏激活,显著降低计算成本,同时保持高性能。
- 高质量非合成数据:
- 使用 11.2 万亿非合成高质量 token 数据,确保模型输出的真实性和可靠性。
- 三级数据处理流水线:
- 通过文档准备、规则处理和模型处理三阶段,确保数据的高质量和多样性。
- 开源中间检查点:
- 每训练 1 万亿 token 发布中间检查点,为大型语言模型的学习动态研究提供宝贵资源。
评估标准
- 性能指标:
- 在问答、数学推理、代码生成等任务上的准确率和效率。
- 数据质量:
- 训练数据的多样性、真实性和知识性。
- 推理效率:
- 模型的推理速度和资源占用。
- 用户满意度:
- 通过用户调研评估模型输出的自然度和实用性。
应用领域
- 智能助手:
- 支持多语言多轮对话,适用于客服、聊天机器人等场景。
- 内容生成:
- 生成高质量的文章、诗歌、代码等。
- 知识问答:
- 提供准确的知识解答,适用于教育、科研等领域。
- 数学推理:
- 解决复杂的数学问题,适用于学术研究和教育。
项目地址
- GitHub:https://github.com/rednote-hilab/dots.llm1
- Hugging Face:https://huggingface.co/rednote-hilab
- 技术报告:https://github.com/rednote-hilab/dots.llm1/blob/main/dots1_tech_report.pdf
dots.llm1 通过高效的 MoE 架构和高质量的非合成训练数据,实现了高性能与低成本的平衡,为自然语言处理领域提供了强大的工具。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...