7月22日·谷歌Gemini斩获IMO金牌,AI数学推理能力再突破
7月22日·周二 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
谷歌Gemini斩获IMO金牌,AI数学推理能力再突破
谷歌DeepMind的Gemini Deep Think模型在国际数学奥林匹克竞赛(IMO)中取得重大突破,以35分(满分42分)的成绩获得金牌。这是首个获得IMO官方认证的AI系统,其解题过程完全使用自然语言进行端到端推理,仅用4.5小时就完成了5道题的解答。与以往AI模型不同,Gemini Deep Think无需将问题翻译为形式语言,而是直接从问题描述生成严谨的数学证明。该模型通过强化学习和并行思考技术,突破了传统单一线性思考的局限,展现出强大的多线程推理能力。谷歌计划将该模型提供给部分数学家测试,并后续向订阅用户推出。此次成就标志着AI在数学推理领域的巨大进步,为未来AI与数学家的合作开辟了新路径。来源:微信公众号【新智元】

8B模型借助“分层投票+测试时训练”实现性能飞跃
麻省理工学院(MIT)的研究者们发现,通过“分层投票+测试时训练”策略,8B参数的lemma3模型在复杂推理任务上的性能大幅提升。测试时训练将单个未标记的测试实例转化为自监督学习问题,在预测前更新模型参数。该方法在抽象推理数据集(ARC)和Big-Bench Hard(BBH)数据集上表现出色,准确率分别从17.5%提高到45%和从50.5%提升到57.8%。通过分层投票策略,模型预测的准确性进一步提高,即使是1B参数的模型也能达到与8B模型相近的性能。这种策略模仿了人类的思维方式,将大任务分解为多个小目标,逐个解决,并在得出最终答案前进行自我审视和验证,为构建更值得信赖的AI系统提供了可能。来源:微信公众号【新智元】

强化学习大佬Sergey Levine谈机器人数据的替代方案
加州大学伯克利分校副教授Sergey Levine在其文章中探讨了机器人领域中替代数据的使用问题。他指出,尽管仿真、人类视频和手持式夹爪设备等替代数据方案在一定程度上降低了数据获取成本,但这些方法本质上是一种妥协,可能会削弱大规模学习模型的泛化能力。随着模型能力的增强,其区分替代数据域与真实世界目标域的能力也在提升,导致行为策略的交集区域不断缩小。Levine强调,真实世界的数据是不可或缺的,它能够教会模型世界的真实运行机制。替代数据应被视为补充知识的来源,而非真实数据的替代品。文章呼吁研究者重新审视替代数据的作用,以更好地发挥模型的泛化能力。来源:微信公众号【机器之心】

行为基础模型助力人形机器人全身控制
来自香港理工大学、逐际动力、东方理工大学、香港大学和EPFL等机构的研究者合作完成了一篇关于行为基础模型(BFM)在人形机器人全身控制中应用的综述文章。文章指出,BFM通过大规模预训练学习可重用的原始技能和广泛的行为先验,能够零样本或快速适应各种下游任务。BFM的主要构建方法包括目标导向学习、内在奖励驱动学习和前后向表征学习。BFM在人形机器人全身控制中的应用前景广阔,可作为通用加速器,支持虚拟智能体、工业5.0和医疗辅助机器人等领域的发展。然而,BFM也面临Sim2Real困难、数据瓶颈和具身泛化等挑战。未来的研究机会包括多模态BFM、高级机器学习系统、后训练优化等,同时需关注伦理和安全问题。来源:微信公众号【机器之心】

清华具身团队星动纪元发布高性能人形机器人
清华大学背景的星动纪元团队在完成近5亿融资后,展示了其最新成果——星动L7人形机器人。这款机器人身高171cm,体重65kg,全身拥有55个自由度,能够完成360°旋转跳、街舞Breaking、叠衣服等复杂动作,同时具备精细化操作能力,如撕纸巾、拧螺丝等。星动L7依靠端到端具身大模型ERA-42驱动,展现出强大的动态能力、任务执行能力和场景泛化能力。其高爆发力动作得益于400N·m扭矩和25rad/s的毫秒级响应能力,而基于运动数据训练的端到端强化学习则实现了精准的实时平衡姿态控制。星动纪元通过“模型-本体-场景数据”的闭环飞轮,推动了具身智能技术的发展,其产品已在科研和商用场景中落地,并获得全球开发者的青睐。来源:微信公众号【量子位】
