6月7日·高考数学大挑战:豆包、元宝并列第一,OpenAI o3垫底
6月7日·周六 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
高考数学大挑战:豆包、元宝并列第一,OpenAI o3垫底
六款大模型进行了高考数学新课标Ⅰ卷的测试,结果显示字节的豆包和腾讯的元宝以68分的成绩并列第一,而OpenAI的o3仅得34分,表现不佳。此次测试采用2025年高考数学新课标Ⅰ卷的14道客观题,满分73分,涵盖单选题、多选题和填空题。测试结果显示,豆包和元宝在单选题和多选题中表现出色,分别获得35分和18分的高分,而o3在单选题中就出现了多次错误,最终仅获得34分,正确率仅为47%。其他模型如DeepSeek和通义分别获得63分和62分,百度的文心X1 Turbo则获得51分。此次测试表明,尽管大模型在数学推理能力上有所进步,但在处理复杂题型和细节时仍存在不足,尤其是在公式、图形理解和条件敏感度方面。此次测试也反映了大模型在数学领域的进步和挑战,预示着未来大模型在教育领域的应用潜力。来源:微信公众号【新智元】

谷歌推出新型序列模型,全面超越Transformer
谷歌提出了一种全新的序列模型架构,通过引入“注意力偏向”和“保留门”机制,重新定义了AI架构设计。新架构在多个任务上全面超越了传统的Transformer模型,参数量减少40%,训练速度较RNN提升5-8倍,性能提升最高达7.2%。谷歌的研究团队提出了Miras框架,包含四个关键设计维度:记忆架构、注意力偏向、保留门控和记忆学习算法。基于该框架,谷歌开发了三种新型模型——Moneta、Yaad和Memora,分别在语言建模、常识推理和记忆密集型任务中表现出色。这些模型在长文本建模、关系推理等任务上创造了新的SOTA纪录,展现了强大的扩展能力和鲁棒性。此次研究由谷歌纽约算法与优化团队完成,核心作者Peilin Zhong曾是清华大学姚班校友,其研究兴趣集中在理论计算机科学和大规模数据计算领域。来源:微信公众号【新智元】

PixVerse国内版「拍我AI」上线,视频创作迎来新变革
爱诗科技旗下的全球知名视频生成应用PixVerse的国内版「拍我AI」正式上线。PixVerse此前已在海外积累了6000万用户,月活达1600万,长期占据视频生成应用榜首。此次国内版上线,为国内视频创作者带来了全新的AI视频生成工具。「拍我AI」提供了丰富的模板和功能,包括首尾帧、多主体、运镜、音效等,用户可以通过简单的操作生成高质量的视频内容。其底层模型已升级到PixVerse V4.5版本,生成速度快,操作体验流畅。无论是新手还是专业创作者,都能在「拍我AI」中找到适合自己的创作方式。该应用的上线,不仅满足了国内用户的需求,也为视频创作领域带来了新的变革。来源:微信公众号【机器之心】

小红书开源首个自研大模型 dots.llm1,142B参数展现高效性能
小红书的hi lab(人文智能实验室)团队开源了首个自研大模型dots.llm1。该模型是一款中等规模的MoE(Mixture of Experts)模型,总参数量达142B,激活参数14B。尽管参数量不算最大,但该模型在激活14B参数的情况下,在中英文通用场景、数学、代码、对齐任务上表现亮眼,与Qwen2.5-32B-Instruct、Qwen2.5-72B-Instruct等模型相比具备竞争力,甚至在某些任务上超越Qwen3-32B。此次开源不仅包括dots.llm1.inst模型,还涵盖了预训练阶段的checkpoint和详细的训练参数信息,为开发者提供了极大的便利。小红书通过高质量的数据处理、高效的训练方式和渐进式的优化策略,实现了“以小搏大”的效果。该模型的开源标志着小红书在大模型领域的技术实力和开放态度,为行业提供了新的参考和选择。来源:微信公众号【机器之心】

港科广&字节推出ComfyMind,一键搞定各类视觉生成任务
由香港科技大学(广州)和字节跳动联合出品的开源框架ComfyMind正式发布。该框架旨在通过一套系统统一处理从文本到图像、从图像到视频等所有主流视觉生成任务,其性能在多个行业基准测试中全面超越现有开源方法,媲美闭源的GPT-4o-Image。ComfyMind通过“原子工作流”作为最小单位,结合树状规划和局部反馈执行,将视觉内容创作转化为分层决策问题,显著提升了稳健性与扩展性。在ComfyBench、Geneval和Reason-Edit三大基准测试中,ComfyMind均取得了优异成绩,展现出卓越的泛化能力和输出质量。该框架的开源为视觉生成领域带来了新的突破,为开发者和创作者提供了强大的工具支持。来源:微信公众号【量子位】
