7月5日·AI模型协同合作，性能大幅提升

235 0 0

7月5日·周六 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

AI模型协同合作，性能大幅提升

Sakana AI团队提出了一种名为Multi-LLM AB-MCTS的方法，将OpenAI的o4-mini、谷歌的Gemini-2.5-Pro和DeepSeek的R1-0528三种前沿AI模型进行整合。该方法通过自适应分支蒙特卡洛树搜索算法，在推理过程中实现多模型动态协作，发挥群体智能优势。实验表明，三模合一的性能远超单个模型，甚至在ARC-AGI-2基准测试中，正确率提升了30%。这一研究为AI的未来发展提供了新的思路，即通过多模型协作而非单纯依赖单模型性能提升来实现更强大的智能表现。来源：微信公众号【新智元】

马斯克Grok 4跑分曝光，AI性能突破新高度

马斯克旗下的xAI公司开发的Grok 4模型跑分提前泄露，在被称为“人类最后考试”的基准测试中，Grok 4取得了45%的惊人高分，远超谷歌Gemini 2.5 Pro和Anthropic的Claude 4 Opus等竞争对手。Grok 4还在GPQA、AIME 25和SWE-bench等多个关键评测中表现优异，展现出强大的推理和编码能力。马斯克表示，Grok 4采用“第一性原理”构建推理机制，有望改写大型语言模型（LLM）的格局。该模型的发布备受期待，其编码能力或将成为其核心竞争力之一。来源：微信公众号【新智元】

邱锡鹏团队开源MOSS-TTSD，突破AI播客“恐怖谷”

上海创智学院、复旦大学和模思智能的OpenMOSS团队联合开源了MOSS-TTSD模型，这一创新成果基于百万小时音频训练，能够生成高质量的对话语音，成功突破了AI播客的“恐怖谷”现象。MOSS-TTSD不仅支持中英双语语音合成，还具备零样本音色克隆能力和稳定的长语音生成能力，适合播客、影视配音、数字人对话等多种应用场景。其核心创新在于XY-Tokenizer，该语音离散化编码器能够高效压缩音频数据，支持最长960秒的音频生成。目前，MOSS-TTSD的模型权重及推理代码已全面开源，为商业应用提供了便利。来源：微信公众号【机器之心】

华为诺亚推出HLCE基准，大语言模型推理能力面临新挑战

华为诺亚方舟实验室发布了一个名为“人类最后的编程考试”（Humanity’s Last Code Exam，HLCE）的全新编程基准，旨在测试大语言模型（LLM）在高难度编程任务中的推理能力。该基准包含过去15年间国际信息学奥林匹克竞赛（IOI）和国际大学生程序设计竞赛世界总决赛（ICPC World Finals）的235道顶尖难题。测试结果显示，即使是当前最先进的模型如OpenAI的o4-mini和谷歌的Gemini-2.5 Pro，在HLCE上的单次尝试成功率也仅有15.85%和11.4%，远低于其他基准测试的表现。这表明现有模型在面对顶尖人类智慧的编程难题时仍有较大提升空间。此外，研究还发现，推理模型在交互式题目上表现欠佳，且模型的自我认知能力与问题解决能力未能同步发展。该研究为未来LLM的发展提供了新的方向，即通过优化搜索策略和增加计算投入，持续挖掘模型潜力。来源：微信公众号【机器之心】

上海交大刘鹏飞团队提出“软件3.5”：交互即智能，开启人机协作新时代

上海交通大学刘鹏飞团队提出“软件3.5”概念，认为传统的“软件3.0”已过时，未来智能的核心在于“交互即智能”。该团队指出，随着深度推理范式的开启，AI已从简单的工具转变为人类的透明思维伙伴，用户可以在AI思考的任何节点进行干预，提供指导或纠正方向。这种认知协作模式突破了传统“输入-输出”模式的局限，实现了人机在思维层面的深度交流。刘鹏飞团队强调，“软件3.5”不仅要求开发者具备认知建模、意图工程等新技能，还将推动人机协作从“人类指挥，机器执行”向“人机共同决策”转变，开启一个“每个人都能成为认知架构师”的新时代。来源：微信公众号【量子位】