3月3日·游戏成LLM新战场，Claude 3.7在超级马里奥中大放异彩

AI资讯速递1年前 (2025)发布 FuturX-Editor

785 0 0

3月3日·周一 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

游戏成LLM新战场，Claude 3.7在超级马里奥中大放异彩

加州大学圣迭戈分校Hao AI Lab通过超级马里奥等游戏对LLM进行评测，引发了行业关注。在测试中，Anthropic的Claude 3.7表现出色，操控马里奥存活90秒，碾压其他竞争对手。相比之下，OpenAI的GPT-4o开局即被小怪击败，反应迟缓；而谷歌的Gemini 1.5 Pro和2.0虽有进步，但最终也未能超越Claude 3.7。此次评测显示，游戏可能成为评估LLM的新战场，传统基准测试的局限性逐渐显现。Hao AI Lab开源的“游戏智能体”项目代码，为后续研究提供了新工具。随着AI技术的发展，游戏领域的竞争将愈发激烈，LLM的评估标准或许也将迎来变革。来源：微信公众号【新智元】

Hinton怒斥马斯克，3410位科学家联名要求将其从英国皇家学会除名

AI教父Geoffrey Hinton与埃隆·马斯克的冲突升级。Hinton指责马斯克对美国科学界造成巨大损害，并呼吁英国皇家学会将其除名。马斯克则回应称“历史自有公断”。此次事件背后，是马斯克担任美国政府效率部门（DOGE）负责人后，推行的激进削减联邦开支政策引发的争议。该政策导致美国国立卫生研究院（NIH）资金冻结，高校科研经费紧张，博士生招生受限，科研人员面临困境。截至目前，已有包括诺奖得主在内的3410名科学家签署联名信，要求皇家学会对马斯克采取行动。皇家学会将于3月3日召开会议讨论此事。这场风波不仅反映了科学界对马斯克政策的强烈不满，也凸显了科研资金不确定性对美国科学界的深远影响。来源：微信公众号【新智元】

南京大学周志华团队斩获AAAI 2025杰出论文奖

AAAI 2025会议于2月25日至3月4日在美国宾夕法尼亚州费城举行，这是人工智能领域历史悠久且极具影响力的国际顶级学术会议。本次会议共收到12957篇有效投稿，录取率仅为23.4%。在激烈的竞争中，南京大学周志华团队的论文《Efficient Rectification of Neuro-Symbolic Reasoning Inconsistencies by Abductive Reflection》脱颖而出，获得杰出论文奖。该论文提出了一种基于溯因学习的框架，能够高效纠正神经符号推理中的不一致性，并在实验中展现出优于现有方法的性能。此外，多伦多大学和波尔多大学等机构的研究者也分别获得杰出论文奖。AAAI 2025还颁发了“AI对社会影响特别奖”，表彰利用深度学习监测气候变化对生物多样性影响的研究。来源：微信公众号【机器之心】

灵初智能发布端到端VLA模型Psi R0.5，仅需两小时数据实现物品、场景全面泛化

灵初智能发布了基于强化学习的端到端视觉-语言-动作（VLA）模型Psi R0.5，距离其上一版本Psi R0仅过去两个月。新模型在复杂场景泛化性、灵巧性、长程任务能力等方面显著提升，仅需2小时的灵巧手抓取数据即可实现全面泛化，数据利用效率比同类模型高出250倍。此次发布的DexGraspVLA框架，通过高层规划和低层控制的分层架构，实现了对多样化物品的高效抓取和长程推理能力。此外，灵初智能还推出了Retrieval Dexterity、ExDex和SafeVLA等创新方案，分别解决了堆叠场景下的物体检索、超大物体抓取和人机安全交互等问题，展现了中国团队在具身智能领域的强大实力。来源：微信公众号【机器之心】

标点符号成大模型训练神器，KV缓存减半，支持400万Tokens长序列

来自华为、香港大学、KAUST和马普所的研究者提出了一种新的自然语言建模方法——SepLLM。该方法通过将文本信息压缩到标点符号（如逗号、句号）中，显著加速了大模型的训练和推理过程，同时将KV缓存减少一半。SepLLM的核心在于利用标点符号在注意力机制中的重要性，将语义段的信息浓缩到分隔符中，从而实现高效建模。实验表明，SepLLM在免训练、预训练和后训练场景中均展现出卓越效率，推理速度更快，困惑度更低。此外，它还支持高达400万Tokens的流式长序列处理，适配多种模型架构（如Llama、Pythia、Falcon等）和不同参数量模型。目前，SepLLM项目已开源，代码库支持多节点分布式训练，进一步推动了大模型的高效应用。来源：微信公众号【量子位】