6月4日·AI领域的创新与争议:从架构革新到开源社区的挑战

AI资讯速递3个月前更新 大Joe
78 0

6月4日·周二 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Mamba 2革新Transformer架构,大幅提升训练效率

由卡内基梅隆大学和普林斯顿大学的学者联合开发的Mamba 2,作为Transformer架构的革新者,成功解决了传统Transformer模型在处理长序列时计算量呈平方级增长的问题。Mamba 2通过引入状态空间模型(SSM)和结构化状态空间对偶(SSD)框架,实现了自注意力机制的线性扩展,显著提升了训练效率。Mamba 2的新算法不仅支持更大的状态维度,而且在保持语言建模能力的同时,训练速度提高了2-8倍。此外,研究还发现,将注意力层与SSM层混合使用,可以进一步提升模型性能,表明注意力和SSM是互补的。这一突破为构建更高效、更强大的AI大模型提供了新的可能性。来源:微信公众号【机器之心

使用LLaMa 3筛选高质量数据集FineWeb-Edu,提升LLM训练效率

AI领域专家Andrej Karpathy推荐了一项名为FineWeb-Edu的工作,该项目通过LLaMa 3模型筛选出了1.3万亿个高质量(教育级)token,用于构建大型语言模型(LLM)的预训练数据集。FineWeb-Edu基于原始的FineWeb数据集,后者包含了15万亿个token,源自96个CommonCrawl快照。研究表明,教育内容对LLM学习更为有益,因为普通网络文章通常包含过多不相关信息,分散训练注意力。FineWeb-Edu在教育基准测试(如MMLU、ARC和OpenBookQA)上表现优于其他公开网络数据集,证明了其在提升LLM训练效率和性能方面的潜力。该工作不仅展示了如何创建高质量的网络规模数据集,还探讨了数据质量的处理和评估,为LLM预训练提供了新的视角。来源:微信公众号【机器之心

后续:斯坦福AI团队涉抄袭中国模型,引发开源社区广泛关注

斯坦福大学AI实验室团队因抄袭中国面壁智能团队的MiniCPM-Llama3-V 2.5模型而陷入丑闻。涉事的Llama3-V模型被指架构和代码与原模型高度相似,且在未公开的数据集上表现出一致的识别能力。事件曝光后,斯坦福团队的两名成员发表致歉声明,并将责任归咎于失踪的第三位团队成员。斯坦福AI实验室主任Christopher Manning公开批评该团队的不当行为。此外,涉事团队成员还被发现有抄袭教科书的前科。面壁智能团队对此表示失望,并强调开源共享的重要性和对前人成果的尊重。该事件在开源社区引发了广泛讨论,许多声音指出社区可能忽视了来自中国的AI大模型成果,同时呼吁对开源协议和他人工作成果给予更多尊重。来源:微信公众号【量子位】

NEXA AI发布Octopus v4,开源AI模型新SOTA

NEXA AI,由斯坦福校友创立的公司,提出了一种创新方法,通过functional token整合多个开源AI模型,以解决单一大模型在资源消耗方面的局限性。他们开发的Octopus v4模型,特别擅长选择和参数理解与重组,能够智能地将用户查询引导至最合适的垂直模型,并优化查询格式以提高性能。Octopus v4拥有约100亿参数,在3B模型中实现了74.8的SOTA MMLU分数。此外,NEXA AI还开发了Octopus-V4-3B模型,这是一个开源的30亿参数模型,作为语言模型图的主节点,专为MMLU基准测试定制,能够有效地处理用户查询并引导至相应的专业模型。NEXA AI的框架无限制,并计划开发多模态模型Octopus 3.5,进一步扩展其能力。来源:微信公众号【量子位】

微软Aurora模型:极端天气预测的革命性突破

微软研究院发布了一款名为Aurora的开创性大规模大气基础模型,该模型在预测全球风暴和极端天气事件方面展现出前所未有的准确率和效率。Aurora通过深度学习技术,能够在高空间分辨率下运行,捕捉大气过程的复杂细节,提供精确的业务预报。与传统数值天气预报系统相比,Aurora的计算速度提高了约5000倍,同时大幅降低了计算成本。Aurora模型的参数量为1.3B,经过超过一百万小时的天气和气候模拟训练,能够全面理解大气动力学,即使在数据稀缺地区或极端天气情况下也能完成出色的预测任务。此外,Aurora的多功能性使其能够预测从温度、风速到空气污染水平和温室气体浓度等多种大气变量。来源:微信公众号【新智元】

【今日案例】

英伟达AI革命对各行业影响

https://kimi.moonshot.cn/share/cpei4r35cfutpd371l6g

© 版权声明

相关文章

暂无评论

暂无评论...