6月16日·谷歌AI路线图曝光：Transformer或被抛弃，Gemini迈向全模态

565 0 0

6月16日·周一 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

谷歌AI路线图曝光：Transformer或被抛弃，Gemini迈向全模态

谷歌在近期的AI工程师世界博览会上，曝光了其未来AI路线图。谷歌产品负责人Logan Kilpatrick在演讲中指出，现有Transformer架构的注意力机制无法实现“无限上下文”，谷歌正在探索新的架构以突破这一限制。未来，Gemini模型将重点发展全模态能力，支持图像、音频和视频生成，同时推理能力和智能体特性也将持续扩展。此外，谷歌还将推出更多小模型和大模型，并致力于实现“无限上下文”的研究突破。Gemini正在成为谷歌所有服务的“统一线程”，未来将连接所有谷歌产品，形成真正的“全域助手”。谷歌的AI Studio也将重新定位为开发者平台，为开发者提供更强大的工具支持。来源：微信公众号【新智元】

小鹏汽车在CVPR 2025展示自动驾驶AI大模型创新

在刚刚落幕的CVPR 2025上，小鹏汽车作为唯一受邀的中国车企，发表了题为《通过大规模基础模型实现自动驾驶的规模化》的演讲，分享了其自研的超大规模自动驾驶基座模型。小鹏展示了从10亿到720亿参数模型的训练成果，验证了Scaling Law在自动驾驶领域的有效性。其模型具备视觉理解、链式推理和动作生成能力，能够处理复杂长尾场景。此外，小鹏还介绍了其强大的AI基础设施，包括万卡智算集群和自研图灵AI芯片，实现了从云端到车端的高效模型部署。小鹏的创新不仅推动了自动驾驶技术的突破，也为中国车企在全球AI领域赢得了重要地位。来源：微信公众号【新智元】

新理论揭示大模型 Prompt 设计的奥秘与效能

英属哥伦比亚大学、纽约大学石溪分校和浙江大学的研究团队发表了一篇关于大模型 Prompt 设计的论文。研究指出，Prompt 在大型语言模型（LLM）的思维链（CoT）推理过程中起着至关重要的“信息选择器”作用，能够调控模型内部信息流。该研究首次构建了一个量化 Prompt 搜索空间复杂度的理论框架，揭示了不同 Prompt 设计如何影响模型的推理路径和性能。实验表明，精心设计的 Prompt 能显著提升模型在复杂推理任务中的表现，而次优设计可能导致性能大幅下降。这项工作为 LLM 提示工程从经验性走向科学化奠定了基础，强调了科学化提示设计的重要性。来源：微信公众号【机器之心】

Midjourney入局视频生成，图像模型V7不断更新，视觉卷王实锤了

图像生成领域的巨头Midjourney正式进军视频生成领域，并展示了其强大的视频生成能力。其视频生成模型在物理真实感、纹路细节和动作平滑度上表现出色，尽管目前还存在一些细节问题，例如部分场景的合理性不足，但整体效果已经引发了广泛关注和讨论。此外，Midjourney的图像模型V7也在不断更新，新增了“草稿模式”和“语音模式”，用户可以通过语音指令生成图像，且生成速度大幅提升。Midjourney的视频模型尚未正式发布，团队正在积极完善，并通过用户反馈优化模型性能和定价策略。Midjourney的这些新进展进一步巩固了其在视觉生成领域的领先地位。来源：微信公众号【量子位】

MIT工科生跨界AI，独作论文登Nature：只需3.5小时修复600年前名画

MIT的工科生Alex Kachkine通过跨学科研究，开发出一种结合AI的画作修复方法，并以独作论文登上《Nature》。他提出了一种“数字修复+物理实现”的全新方法，利用AI算法生成修复所需的双层遮罩，并将其打印在透明薄膜上贴于原画表面，从而在不损害原画的情况下完成修复。这一方法将修复时间从数月甚至数年缩短至几小时，例如修复一幅600年前的油画仅耗时3.5小时。Alex的背景涵盖机械工程、经济学和微系统工程，他的研究不仅提升了修复效率，还为艺术修复领域带来了创新思路，展现了跨学科研究的巨大潜力。来源：微信公众号【量子位】