7月18日·ChatGPT Agent:开启智能体协作新时代
7月18日·周五 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
ChatGPT Agent:开启智能体协作新时代
OpenAI在2025年7月18日发布了ChatGPT Agent,这是其首个统一智能体系统,融合了Operator、Deep Research和ChatGPT的优势。ChatGPT Agent能够自主上网、执行任务、生成PPT和Excel等,极大地提升了工作效率。它通过可视化浏览器、文本浏览器和终端等工具,实现了与计算机的无缝交互。在HLE测试中,ChatGPT Agent取得了41.6%的高分,并在数学FrontierMath基准上刷新了SOTA。这一系统不仅展示了强大的任务执行能力,还允许用户随时中断任务或接管浏览器,确保人类始终处于控制之中。ChatGPT Agent的发布,标志着AI智能体在实际应用中的重大突破,为未来的工作模式带来了无限可能。来源:微信公众号【新智元】

微软推出「0污染」LLM理解基准MMLU-CF
微软亚洲研究院于2025年7月18日发布了一个全新的大语言模型(LLM)理解基准测试MMLU-CF。该基准包含20,000道题目,涵盖14个学科,旨在更公平、准确地评估LLM的能力。MMLU-CF通过去污染规则和闭源测试集,防止数据泄露,确保评估结果的可靠性。与传统基准相比,MMLU-CF显著降低了数据污染的风险,测试结果显示,即使是性能最好的模型在MMLU-CF上的得分也低于在MMLU上的表现,表明了该基准的严格性。这一基准的发布,为大语言模型的评估提供了一个更加公平和可靠的平台。来源:微信公众号【新智元】

Evaluation Agent:AI模型的智能评估助手
上海人工智能实验室与新加坡南洋理工大学的研究者合作开发了一种新型的AI评估框架——Evaluation Agent。该框架能够根据用户的需求,动态规划评估方案,并生成详细的分析报告。Evaluation Agent不仅支持图片和视频生成模型的评估,还通过多轮交互式评估和智能采样策略,大幅提高了评估效率,节省了90%以上的时间。此外,它还能以自然语言生成评估报告,使结果更具可解释性。Evaluation Agent的出现,为视觉生成模型的评估提供了一种高效、灵活且可扩展的新范式。来源:微信公众号【机器之心】

Le Chat:欧洲AI新贵的全面升级
欧洲AI初创公司Mistral AI于2025年7月18日对其聊天机器人Le Chat进行了全面升级,使其在功能上全方位对标ChatGPT。Le Chat的新功能包括深度研究模式、语音模式、原生多语言推理、项目管理和高级图像编辑等。其中,深度研究模式能够快速生成结构化的研究报告;语音模式则利用Mistral AI新发布的Voxtral模型,实现了自然、低延迟的语音识别。Le Chat的这些新功能不仅提升了用户体验,也展示了Mistral AI在追赶OpenAI方面的强劲势头。来源:微信公众号【机器之心】

Meta全新AI组织架构曝光,借鉴字节跳动模式
Meta在2025年7月18日曝光了其全新的AI组织架构,这一架构由首席人工智能官Alexandr Wang领导,整合了3400多人的团队。新架构包括四个主要部门:AGI基础研究团队、AI产品团队、基础AI实验室和Llama 5研发团队。其中,AI产品团队负责将AI能力应用于Meta的各个产品和业务线,类似于字节跳动的AI架构。Meta的这一调整不仅显示了其对AI的重视,也反映了其在组织架构上对字节跳动的借鉴。此外,Meta还计划在Llama 5的研发中采取闭源策略,以保持其在AI领域的竞争力。来源:微信公众号【量子位】
