6月27日·GPT-5 或于 7 月上线，多模态新特性引关注

433 0 0

6月27日·周五 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

GPT-5 或于 7 月上线，多模态新特性引关注

OpenAI 员工爆料称已抢先体验 GPT-5，该模型可能于今年 7 月上线。从 Sam Altman 在 X 平台关注的神秘人物爆料，再到 OpenAI 员工 Aidan 的回应，种种迹象引发外界对 GPT-5 的猜测。更有网友称自己似乎被灰度测试 GPT-5，体验到其强大的连续思考与搜索能力。此前奥特曼透露 GPT-5 或在今年夏天发布，其将迈向完全多模态，支持语音、图像、代码和视频等多种输入方式，具备深度推理、生成实时视频及编写大量代码等能力，有望带来全新计算机界面。对于 GPT-5，网友们预测其进步主要集中在视频模态更自然、智能体性能提升、拥有更强理解能力与直觉等方面。来源：微信公众号【新智元】

西安交大提出零开销图像幻觉消除方法 Nullu，登顶 CVPR 2025

西安交通大学研究团队在 CVPR 2025 上提出了一种名为 Nullu 的新方法，可有效消除大型视觉语言模型（LVLMs）中的图像幻觉问题。该方法通过提取「幻觉子空间」（HalluSpace），并利用零空间投影对模型权重进行编辑，从而在不增加额外推理成本的情况下，显著减少模型生成图像中不存在的物体描述。Nullu 方法无需训练，实现简单且便于部署，已在多个数据集上验证其有效性。实验表明，Nullu 能在保持模型整体性能的同时，显著提升生成内容的真实性，为视觉语言模型的优化提供了新思路。来源：微信公众号【新智元】

可灵 AI 推出音画同步模型 Kling-Foley，为视频生成完美音效

可灵 AI 最新推出的多模态视频生音效模型 Kling-Foley，能够为视频生成与画面语义相关且时间同步的高质量立体声音频。该模型支持输入文本或静音视频，输出音效和背景音乐，具备立体声渲染能力，可实现空间定向声源建模。Kling-Foley 通过多模态联合条件模块融合文本、视频和时间信息，利用视觉语义表示模块和音视频同步模块精准对齐音视频，解决了传统方法中音效与视频不同步的问题。此外，可灵 AI 还构建了包含 1 亿 + 样本的多模态数据集，为模型训练提供了坚实基础。目前，该功能已全面覆盖可灵平台所有视频模型，用户可一键生成音效，大幅降低音频后期制作成本。来源：微信公众号【新智元】

Mercury：扩散 LLM 实现超快速响应，超越 Gemini 2.5 Flash

AI 初创公司 Inception Labs 推出了 Mercury，一款基于扩散模型的商业级语言模型（LLM），专为聊天应用设计，速度极快且效率极高。Mercury 由扩散模型的发明者之一 Stefano Ermon 参与开发，利用并行生成技术大幅提升了生成速度，相比传统自回归模型，其在性能和效率上都达到了行业领先水平。第三方测评显示，Mercury 的运行速度比 GPT-4.1 Nano 和 Claude 3.5 Haiku 等前沿模型快 7 倍以上，且在实时语音翻译和呼叫中心应用中表现出色。尽管 Mercury 的生成速度极快，但在生成质量上仍有提升空间。目前，用户已可通过相关平台体验 Mercury 的强大功能。来源：微信公众号【机器之心】

阿里云百炼推出 Agent 打赏功能，助力开发者变现

阿里云百炼在 3.0 全新升级中，联合支付宝首创「Agent 打赏」功能，为开发者提供从技术落地到商业变现的全链路解决方案。基于阿里云百炼创建的 Agent，用户觉得好用即可直接打赏，打赏接口还可集成到企业开发者自己的生态或渠道中。此外，阿里云百炼还正式上线了 Agent Store，提供上百个覆盖各行业的 Agent 模板，开发者可在线体验、一键复制并快速启动二次开发。此次升级还包括企业级 RAG 和 MCP 能力的增强，以及多模态交互开发套件的发布，助力开发者打造新一代智能交互体验。来源：微信公众号【量子位】