2月6日·Claude Opus 4.6与GPT-5.3-Codex正面硬刚
2月6日·周五 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
Claude Opus 4.6与GPT-5.3-Codex正面硬刚
Anthropic与OpenAI同日发布旗舰模型,Claude Opus 4.6首次拥有100万token上下文窗口,引入”智能体团队“功能,在GDPval-AA测试中比GPT-5.2高出144个Elo分,Terminal-Bench 2.0和人类最后的考试均领先。Anthropic研究员用16个智能体两周耗资2万美元,从零构建出可编译Linux内核的Rust版C编译器,代码长达10万行,通过GCC 99%压力测试,甚至能运行Doom。OpenAI的GPT-5.3-Codex则在SWE-Bench Pro达56.8%,Terminal-Bench 2.0达77.3%,速度提升25%,可执行软件生命周期全环节工作,包括编写需求文档、用户研究、指标分析等。奥特曼称其拥有目前最佳编码性能,Codex应用让管理和指导智能体更便捷,支持实时互动和语音播报。来源:微信公众号【机器之心】
华人团队MemBrain拿下记忆基准SOTA,反超EverMemOS
Feeling AI团队发布MemBrain1.0,在LoCoMo、LongMemEval、PersonaMem-v2等主流记忆基准中斩获全新SOTA,LoCoMo准确率93.25%,LongMemEval达84.6%,KnowMeBench Level III最高难度提升超300%。团队采用Agentic思路重构记忆系统,将实体提取、会话摘要、记忆合并等环节拆解为独立子Agent协同作战,传统检索手段降为可调工具,实现真正的自适应检索。MemBrain针对长时上下文进行深度结构化工程优化,通过精细化字段设计与上下文对齐机制,确保记忆数据高保真度与检索高度相关性。创始人戴勃为香港大学助理教授,团队来自清华、港中文、NTU及米哈游、英伟达等,是国内最早押注世界模型的团队之一,已完成两轮超亿元融资。来源:微信公众号【机器之心】
OpenClaw狂揽16万Star,火山引擎AgentKit解决企业级落地难题
开源AI助理OpenClaw GitHub Star超16万,但存在部署复杂、合规性差、安全漏洞频发等问题,Shodan显示大量网关零认证开放,可能导致shell访问和API密钥泄露。火山引擎推出AgentKit企业级解决方案,通过AI逆向工程实现存量系统智能化转换,基于MCP的工具精准召回降低Token消耗70%,Skills资产化管理和零信任身份体系解决工具碎片化、调用低效和安全风险三大痛点。零售集团案例显示,50多个核心接口转化为智能工具后,查询从分钟级缩至秒级;跨境支付公司将合规策略封装为Skill,监管响应从周级压至小时级。AgentKit支持动态临时凭证、端到端委托链验证,确保每次工具调用可控、可追责、可审计。来源:微信公众号【机器之心】
清华研究生开源Motus,具身世界模型性能超Pi-0.5达40%
生数科技联合清华大学开源大一统世界模型Motus,由清华TSAIL实验室硕士生毕弘喆和博士生谭恒楷领衔,首次实现VLA、世界模型、视频生成、逆动力学、视频-动作联合预测五种范式统一。Motus在50项通用任务中绝对成功率比Pi-0.5提升35%以上,最高达40%,RoboTwin 2.0仿真榜单平均成功率88%,Stack Bowls Three任务从16%飙升至95%。技术核心为Mixture-of-Transformer架构配合Tri-model Joint Attention机制,整合理解专家、视频生成专家和动作专家,实现”看-想-动”闭环。采用潜动作策略,利用光流技术将互联网视频转化为机器人动作趋势,数据效率提升13.55倍。Scaling Curves显示,随着任务增加,Motus持续上升而Pi-0.5下降,证明具身智能可涌现跨任务泛化能力。来源:微信公众号【机器之心】
小冰之父李笛打造团子,群体智能体从娱乐走向生产力
Nextie(明日新程)创始人李笛推出群体智能平台”团子“,与Moltbook的AI自娱自乐不同,团子聚焦为人类提升生产力。用户@不同Agent团队(如40人”姐妹团”、75人”研究团”),可解决春节反围攻、职业选择等复杂问题,Agent间会辩论、挑战、反思甚至投票,输出经充分博弈的综合研判。团队核心成员来自微软小冰原班人马,李笛为小冰之父,曾敏负责开放域对话系统,王文斓负责大模型与算法。Nextie认为大模型堆知识时代已过,下半场是认知竞争,群体智能解决”认知平权”问题。团子采用混合型多Agent架构,与谷歌DeepMind最新研究观点不谋而合,在复杂决策任务上智能深度超ChatGPT-5.2 Thinking,Token消耗降低约50%。”群体仿真团”即将上线,可预解决策连锁反应。来源:微信公众号【量子位】