2月6日·Claude Opus 4.6与GPT-5.3-Codex正面硬刚

763 0 0

2月6日·周五 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Claude Opus 4.6与GPT-5.3-Codex正面硬刚

Anthropic与OpenAI同日发布旗舰模型，Claude Opus 4.6首次拥有100万token上下文窗口，引入”智能体团队“功能，在GDPval-AA测试中比GPT-5.2高出144个Elo分，Terminal-Bench 2.0和人类最后的考试均领先。Anthropic研究员用16个智能体两周耗资2万美元，从零构建出可编译Linux内核的Rust版C编译器，代码长达10万行，通过GCC 99%压力测试，甚至能运行Doom。OpenAI的GPT-5.3-Codex则在SWE-Bench Pro达56.8%，Terminal-Bench 2.0达77.3%，速度提升25%，可执行软件生命周期全环节工作，包括编写需求文档、用户研究、指标分析等。奥特曼称其拥有目前最佳编码性能，Codex应用让管理和指导智能体更便捷，支持实时互动和语音播报。来源：微信公众号【机器之心】

华人团队MemBrain拿下记忆基准SOTA，反超EverMemOS

Feeling AI团队发布MemBrain1.0，在LoCoMo、LongMemEval、PersonaMem-v2等主流记忆基准中斩获全新SOTA，LoCoMo准确率93.25%，LongMemEval达84.6%，KnowMeBench Level III最高难度提升超300%。团队采用Agentic思路重构记忆系统，将实体提取、会话摘要、记忆合并等环节拆解为独立子Agent协同作战，传统检索手段降为可调工具，实现真正的自适应检索。MemBrain针对长时上下文进行深度结构化工程优化，通过精细化字段设计与上下文对齐机制，确保记忆数据高保真度与检索高度相关性。创始人戴勃为香港大学助理教授，团队来自清华、港中文、NTU及米哈游、英伟达等，是国内最早押注世界模型的团队之一，已完成两轮超亿元融资。来源：微信公众号【机器之心】

OpenClaw狂揽16万Star，火山引擎AgentKit解决企业级落地难题

开源AI助理OpenClaw GitHub Star超16万，但存在部署复杂、合规性差、安全漏洞频发等问题，Shodan显示大量网关零认证开放，可能导致shell访问和API密钥泄露。火山引擎推出AgentKit企业级解决方案，通过AI逆向工程实现存量系统智能化转换，基于MCP的工具精准召回降低Token消耗70%，Skills资产化管理和零信任身份体系解决工具碎片化、调用低效和安全风险三大痛点。零售集团案例显示，50多个核心接口转化为智能工具后，查询从分钟级缩至秒级；跨境支付公司将合规策略封装为Skill，监管响应从周级压至小时级。AgentKit支持动态临时凭证、端到端委托链验证，确保每次工具调用可控、可追责、可审计。来源：微信公众号【机器之心】

清华研究生开源Motus，具身世界模型性能超Pi-0.5达40%

生数科技联合清华大学开源大一统世界模型Motus，由清华TSAIL实验室硕士生毕弘喆和博士生谭恒楷领衔，首次实现VLA、世界模型、视频生成、逆动力学、视频-动作联合预测五种范式统一。Motus在50项通用任务中绝对成功率比Pi-0.5提升35%以上，最高达40%，RoboTwin 2.0仿真榜单平均成功率88%，Stack Bowls Three任务从16%飙升至95%。技术核心为Mixture-of-Transformer架构配合Tri-model Joint Attention机制，整合理解专家、视频生成专家和动作专家，实现”看-想-动”闭环。采用潜动作策略，利用光流技术将互联网视频转化为机器人动作趋势，数据效率提升13.55倍。Scaling Curves显示，随着任务增加，Motus持续上升而Pi-0.5下降，证明具身智能可涌现跨任务泛化能力。来源：微信公众号【机器之心】

小冰之父李笛打造团子，群体智能体从娱乐走向生产力

Nextie（明日新程）创始人李笛推出群体智能平台”团子“，与Moltbook的AI自娱自乐不同，团子聚焦为人类提升生产力。用户@不同Agent团队（如40人”姐妹团”、75人”研究团”），可解决春节反围攻、职业选择等复杂问题，Agent间会辩论、挑战、反思甚至投票，输出经充分博弈的综合研判。团队核心成员来自微软小冰原班人马，李笛为小冰之父，曾敏负责开放域对话系统，王文斓负责大模型与算法。Nextie认为大模型堆知识时代已过，下半场是认知竞争，群体智能解决”认知平权”问题。团子采用混合型多Agent架构，与谷歌DeepMind最新研究观点不谋而合，在复杂决策任务上智能深度超ChatGPT-5.2 Thinking，Token消耗降低约50%。”群体仿真团”即将上线，可预解决策连锁反应。来源：微信公众号【量子位】