2月28日·GPT-4.5震撼上线，情商与智能大幅提升

AI资讯速递1年前 (2025)发布 FuturX-Editor

585 0 0

2月28日·周五 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

GPT-4.5震撼上线，情商与智能大幅提升

OpenAI于2025年2月28日推出其最新模型GPT-4.5，该模型并非推理模型，但在规模、知识储备和实用性上均创下新高，被评价为“最像人类”的AI模型。GPT-4.5在多项基准测试中表现卓越，数学能力飙升27%，编码能力提升7%-10%，幻觉率大幅降低。其最大特色是交互自然、情商高，能够细腻地理解人类情感与需求。此外，GPT-4.5的token定价较高，输入每1M tokens价格为75美元，输出为150美元。目前，该模型仅向Pro版用户和付费开发者开放。OpenAI计划逐步扩大使用范围，未来将推出更多版本。来源：微信公众号【新智元】

机器人学会“自我意识”，哥大华人团队成果登Nature子刊

哥伦比亚大学华人学者胡宇航团队在《自然·机器智能》发表最新研究成果，开发出一种新AI系统，让机器人通过普通摄像头和深度神经网络实现自我建模、运动规划和自我修复。这项技术被称为“自由形态运动自我建模”（FFKSM），使机器人能够像人类一样通过视觉观察自身，理解身体结构和运动方式，并在受损后自主调整。研究突破了传统机器人依赖工程师调整的局限，让机器人从被动执行任务的工具转变为能够自主学习和适应环境的“认知生命体”。这一成果不仅为具身智能发展带来新范式，还为机器人在复杂环境中的应用提供了新的可能性，例如在极端环境下自我修复或在人机交互中实现更自然的表情控制。未来，机器人或许能够像人类一样通过视觉感知自身，迈出“自我意识”的第一步。来源：微信公众号【新智元】

谷歌发布超难基准BIG-Bench Extra Hard，AI模型表现不及格

谷歌近日发布了一个高难度的AI基准测试——BIG-Bench Extra Hard（BBEH），旨在更准确地评估AI模型的高阶推理能力。BBEH基于BIG-Bench Hard构建，任务难度大幅升级，涵盖数学、科学、编程等多个领域。测试结果显示，当前最强的o3-mini (high)模型得分仅为44.8%，其他模型如DeepSeek-R1仅得6.8分，谷歌自家的Gemini-2.0-Flash也仅有9.8分，均未超过10分。研究团队指出，BBEH的高难度为AI模型提供了巨大的进步空间，同时也揭示了现有模型在复杂推理任务上的局限性。该基准的发布为AI研究者提供了一个更具挑战性的测试平台，推动模型在高阶推理能力上的进一步发展。来源：微信公众号【机器之心】

北大团队新研究：大模型训练可容忍随机噪声，新方法提升抗噪能力

北京大学研究团队在大语言模型训练中发现，随机噪声对模型性能的影响远小于预期。实验表明，即使在高达20%的噪声数据下，模型的Next-token Prediction (NTP) loss仅上升约1%。团队进一步提出“局部梯度匹配”（LGM）方法，通过增强模型在特征扰动下的决策一致性，显著提升了模型在噪声环境中的表现。该研究不仅为数据清洗提供了新思路，还为多语言模型和跨模态模型的训练提供了理论支持。未来，团队计划探索更大规模模型的噪声耐受性及LGM在其他领域的应用。来源：微信公众号【量子位】

DeepSeek开源周收官，发布高性能并行文件系统3FS

DeepSeek开源周在第五天迎来了收官之作，开源了全新的并行文件系统 3FS和基于其构建的轻量级数据处理框架Smallpond。3FS利用现代SSD和RDMA网络的全部带宽，展现出惊人的性能：180节点集群聚合读取吞吐量达6.6TB/s，25节点集群GraySort基准测试吞吐量为3.66TB/分钟，KVCache查找峰值吞吐量超过40GB/s。该系统为AI训练和推理任务提供了高性能的存储解决方案，支持数据准备、加载、Checkpoint和推理缓存等功能。3FS的开源为AI基础设施建设设定了新基准，进一步推动了大模型训练和推理的高效化。DeepSeek开源周的五天内容涵盖了多个AI基础设施关键组件，展现了极致性能优化和成本压缩的理念。来源：微信公众号【量子位】