6月27日·GPT-5 或于 7 月上线,多模态新特性引关注
6月27日·周五 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
GPT-5 或于 7 月上线,多模态新特性引关注
OpenAI 员工爆料称已抢先体验 GPT-5,该模型可能于今年 7 月上线。从 Sam Altman 在 X 平台关注的神秘人物爆料,再到 OpenAI 员工 Aidan 的回应,种种迹象引发外界对 GPT-5 的猜测。更有网友称自己似乎被灰度测试 GPT-5,体验到其强大的连续思考与搜索能力。此前奥特曼透露 GPT-5 或在今年夏天发布,其将迈向完全多模态,支持语音、图像、代码和视频等多种输入方式,具备深度推理、生成实时视频及编写大量代码等能力,有望带来全新计算机界面。对于 GPT-5,网友们预测其进步主要集中在视频模态更自然、智能体性能提升、拥有更强理解能力与直觉等方面。来源:微信公众号【新智元】

西安交大提出零开销图像幻觉消除方法 Nullu,登顶 CVPR 2025
西安交通大学研究团队在 CVPR 2025 上提出了一种名为 Nullu 的新方法,可有效消除大型视觉语言模型(LVLMs)中的图像幻觉问题。该方法通过提取「幻觉子空间」(HalluSpace),并利用零空间投影对模型权重进行编辑,从而在不增加额外推理成本的情况下,显著减少模型生成图像中不存在的物体描述。Nullu 方法无需训练,实现简单且便于部署,已在多个数据集上验证其有效性。实验表明,Nullu 能在保持模型整体性能的同时,显著提升生成内容的真实性,为视觉语言模型的优化提供了新思路。来源:微信公众号【新智元】

可灵 AI 推出音画同步模型 Kling-Foley,为视频生成完美音效
可灵 AI 最新推出的多模态视频生音效模型 Kling-Foley,能够为视频生成与画面语义相关且时间同步的高质量立体声音频。该模型支持输入文本或静音视频,输出音效和背景音乐,具备立体声渲染能力,可实现空间定向声源建模。Kling-Foley 通过多模态联合条件模块融合文本、视频和时间信息,利用视觉语义表示模块和音视频同步模块精准对齐音视频,解决了传统方法中音效与视频不同步的问题。此外,可灵 AI 还构建了包含 1 亿 + 样本的多模态数据集,为模型训练提供了坚实基础。目前,该功能已全面覆盖可灵平台所有视频模型,用户可一键生成音效,大幅降低音频后期制作成本。来源:微信公众号【新智元】

Mercury:扩散 LLM 实现超快速响应,超越 Gemini 2.5 Flash
AI 初创公司 Inception Labs 推出了 Mercury,一款基于扩散模型的商业级语言模型(LLM),专为聊天应用设计,速度极快且效率极高。Mercury 由扩散模型的发明者之一 Stefano Ermon 参与开发,利用并行生成技术大幅提升了生成速度,相比传统自回归模型,其在性能和效率上都达到了行业领先水平。第三方测评显示,Mercury 的运行速度比 GPT-4.1 Nano 和 Claude 3.5 Haiku 等前沿模型快 7 倍以上,且在实时语音翻译和呼叫中心应用中表现出色。尽管 Mercury 的生成速度极快,但在生成质量上仍有提升空间。目前,用户已可通过相关平台体验 Mercury 的强大功能。来源:微信公众号【机器之心】

阿里云百炼推出 Agent 打赏功能,助力开发者变现
阿里云百炼在 3.0 全新升级中,联合支付宝首创「Agent 打赏」功能,为开发者提供从技术落地到商业变现的全链路解决方案。基于阿里云百炼创建的 Agent,用户觉得好用即可直接打赏,打赏接口还可集成到企业开发者自己的生态或渠道中。此外,阿里云百炼还正式上线了 Agent Store,提供上百个覆盖各行业的 Agent 模板,开发者可在线体验、一键复制并快速启动二次开发。此次升级还包括企业级 RAG 和 MCP 能力的增强,以及多模态交互开发套件的发布,助力开发者打造新一代智能交互体验。来源:微信公众号【量子位】
