3月2日

AI资讯速递2年前 (2024)发布 FuturX-Editor

910 0 0

3月2日·周六 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

微软、国科大开启1Bit时代：大模型转三进制，速度快4倍能耗降至1/41

2月29日，由微软、国科大等机构提交的一篇论文在 AI 圈里被人们争相转阅。该研究提出了一种 1-bit 大模型，实现效果让人只想说两个字：震惊。微软研究院、国科大同一团队（作者部分变化）的研究者推出了 BitNet 的重要 1-bit 变体，即 BitNet b1.58，其中每个参数都是三元并取值为 {-1, 0, 1}。他们在原来的 1-bit 上添加了一个附加值 0，得到二进制系统中的 1.58 bits。BitNet b1.58 继承了原始 1-bit BitNet 的所有优点，包括新的计算范式，使得矩阵乘法几乎不需要乘法运算，并可以进行高度优化。同时，BitNet b1.58 具有与原始 1-bit BitNet 相同的能耗，相较于 FP16 LLM 基线在内存消耗、吞吐量和延迟方面更加高效。BitNet b1.58 还具有两个额外优势。其一是建模能力更强，这是由于它明确支持了特征过滤，在模型权重中包含了 0 值，显著提升了 1-bit LLM 的性能。其二实验结果表明，当使用相同配置（比如模型大小、训练 token 数）时，从 3B 参数规模开始， BitNet b1.58 在困惑度和最终任务的性能方面媲美全精度（FP16）基线方法。来源：微信公众号【机器之心】

开源代码生成模型 StarCoder 2 全新上线！

BigCode 正式推出 StarCoder2 —— 一系列新一代的开放源代码大语言模型 (LLMs)。这些模型全部基于一个全新、大规模且高品质的代码数据集 The Stack v2 进行训练。StarCoder2 是一套面向代码的开放式大语言模型系列，提供 3 种规模的模型，分别包括 30 亿 (3B)、70 亿 (7B) 和 150 亿 (15B) 参数。特别地，StarCoder2-15B 模型经过了超过 4 万亿 token 和 600 多种编程语言的训练，基于 The Stack v2 数据集。所有模型均采用分组查询注意力机制 (Grouped Query Attention)，具备 16,384 个 token 的上下文窗口和 4,096 个令牌的滑动窗口注意力，并通过“填充中间” (Fill-in-the-Middle) 技术进行训练。StarCoder2 包含三种规模的模型: ServiceNow 训练的 30 亿参数模型、Hugging Face 训练的 70 亿参数模型以及 NVIDIA 利用 NVIDIA NeMo 在 NVIDIA 加速基础架构上训练的 150 亿参数模型:StarCoder2-3B 基于 The Stack v2 的 17 种编程语言训练，处理了超过 3 万亿 token。StarCoder2-7B 基于 The Stack v2 的 17 种编程语言训练，处理了超过 3.5 万亿 token。StarCoder2-15B 基于 The Stack v2 的 600 多种编程语言训练，处理了超过 4 万亿 token。来源：微信公众号【Hugging Face】