5月1日·DeepSeek-Prover-V2:671B参数模型加冕数学推理新王者

5月1日·周四  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

DeepSeek-Prover-V2:671B参数模型加冕数学推理新王者

DeepSeek团队发布了DeepSeek-Prover-V2模型,其在数学推理领域取得了重大突破。该模型包含7B和671B两种参数版本,其中671B版本在推理性能上表现尤为突出。DeepSeek-Prover-V2的核心训练方法是递归定理证明与强化学习相结合,通过将复杂定理拆解为子目标,并利用GRPO算法优化解题路径。在基准测试中,该模型在MiniF2F-test上达到了88.9%的通过率,并在PutnamBench中解决了49个问题,展现了强大的数学推理能力。此外,团队还构建了ProverBench基准数据集,涵盖高中竞赛和本科数学题目,为模型训练提供了丰富素材。DeepSeek-Prover-V2的发布,被认为可能为通往人工通用智能(AGI)开辟新路径。来源:微信公众号【新智元】

5月1日·DeepSeek-Prover-V2:671B参数模型加冕数学推理新王者

北大推出PHYBench,大模型物理推理能力迎来新挑战

北京大学物理学院联合多个院系发布了一个专注于物理感知与推理能力的大模型基准——PHYBench。该基准包含500个基于现实物理问题的题目,涵盖力学、电磁学、热力学等多个领域,难度从高中到物理奥林匹克竞赛不等。与传统基准不同,PHYBench通过表达式编辑距离(EED)得分和准确率两个指标,更细致地评估模型的物理推理能力。实验结果显示,即使是当前最先进的LLM,如Gemini 2.5 Pro,其准确率也仅为36.9%,远低于人类基线的61.9%。这表明大模型在物理推理任务中仍存在巨大短板,而PHYBench的推出为AI模型的物理能力评估和改进提供了新的方向。来源:微信公众号【新智元】

5月1日·DeepSeek-Prover-V2:671B参数模型加冕数学推理新王者

Meta科学家回顾被Transformer掩盖的创新之作

2015年发布的「End-To-End Memory Networks」论文在AI领域具有重要意义,但其光芒被2017年的Transformer论文所掩盖。这篇论文由Meta研究科学家Sainbayar Sukhbaatar等人撰写,首次将注意力机制完全替代RNN用于语言模型,引入了带键值投影的点积软注意力机制,堆叠多层注意力,并引入位置嵌入以解决顺序不变性问题。尽管其引用量仅有3000多,但论文中提出的许多概念已成为当前大型语言模型的重要组成部分。十年后的今天,这些创新仍对AI架构的发展具有启发意义。来源:微信公众号【机器之心】

5月1日·DeepSeek-Prover-V2:671B参数模型加冕数学推理新王者

PaperCoder开源神器,将机器学习论文一键转为可运行代码

韩国科学技术院的研究人员开发了一个名为PaperCoder的开源AI工具,能够将机器学习论文自动转化为可运行的代码库。该工具通过多智能体大语言模型系统,在规划、分析和代码生成三个阶段分别处理不同任务。其生成的代码在基准测试中超越了现有框架,并获得了77%的原顶会论文作者的认可。PaperCoder的开发旨在解决机器学习论文代码共享率低(仅21%)的问题,加速研究成果的复现和应用。更多详情可查阅原论文及代码库。来源:微信公众号【机器之心】

5月1日·DeepSeek-Prover-V2:671B参数模型加冕数学推理新王者

上海车展见证历史:中国汽车技术从“西为中用”迈向“中为西用”

2025年上海车展上,上汽大众与智能辅助驾驶公司Momenta的合作成为焦点,标志着中国汽车工业从“技术输血”迈向“智能造血”的历史性转折。上汽大众作为中国首家轿车合资车企,曾开启“西为中用”时代,如今携手Momenta,推出搭载其智能辅助驾驶方案的概念车ID.ERA,引领合资车企智能化转型。Momenta凭借“飞轮”技术路线和强化学习大模型,成为多家国际车企的首选,推动中国汽车技术“外溢”,助力中国标准走向全球。来源:微信公众号【量子位】

5月1日·DeepSeek-Prover-V2:671B参数模型加冕数学推理新王者
© 版权声明

相关文章

暂无评论

暂无评论...