6月16日·谷歌AI路线图曝光:Transformer或被抛弃,Gemini迈向全模态
6月16日·周一 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
谷歌AI路线图曝光:Transformer或被抛弃,Gemini迈向全模态
谷歌在近期的AI工程师世界博览会上,曝光了其未来AI路线图。谷歌产品负责人Logan Kilpatrick在演讲中指出,现有Transformer架构的注意力机制无法实现“无限上下文”,谷歌正在探索新的架构以突破这一限制。未来,Gemini模型将重点发展全模态能力,支持图像、音频和视频生成,同时推理能力和智能体特性也将持续扩展。此外,谷歌还将推出更多小模型和大模型,并致力于实现“无限上下文”的研究突破。Gemini正在成为谷歌所有服务的“统一线程”,未来将连接所有谷歌产品,形成真正的“全域助手”。谷歌的AI Studio也将重新定位为开发者平台,为开发者提供更强大的工具支持。来源:微信公众号【新智元】

小鹏汽车在CVPR 2025展示自动驾驶AI大模型创新
在刚刚落幕的CVPR 2025上,小鹏汽车作为唯一受邀的中国车企,发表了题为《通过大规模基础模型实现自动驾驶的规模化》的演讲,分享了其自研的超大规模自动驾驶基座模型。小鹏展示了从10亿到720亿参数模型的训练成果,验证了Scaling Law在自动驾驶领域的有效性。其模型具备视觉理解、链式推理和动作生成能力,能够处理复杂长尾场景。此外,小鹏还介绍了其强大的AI基础设施,包括万卡智算集群和自研图灵AI芯片,实现了从云端到车端的高效模型部署。小鹏的创新不仅推动了自动驾驶技术的突破,也为中国车企在全球AI领域赢得了重要地位。来源:微信公众号【新智元】

新理论揭示大模型 Prompt 设计的奥秘与效能
英属哥伦比亚大学、纽约大学石溪分校和浙江大学的研究团队发表了一篇关于大模型 Prompt 设计的论文。研究指出,Prompt 在大型语言模型(LLM)的思维链(CoT)推理过程中起着至关重要的“信息选择器”作用,能够调控模型内部信息流。该研究首次构建了一个量化 Prompt 搜索空间复杂度的理论框架,揭示了不同 Prompt 设计如何影响模型的推理路径和性能。实验表明,精心设计的 Prompt 能显著提升模型在复杂推理任务中的表现,而次优设计可能导致性能大幅下降。这项工作为 LLM 提示工程从经验性走向科学化奠定了基础,强调了科学化提示设计的重要性。来源:微信公众号【机器之心】

Midjourney入局视频生成,图像模型V7不断更新,视觉卷王实锤了
图像生成领域的巨头Midjourney正式进军视频生成领域,并展示了其强大的视频生成能力。其视频生成模型在物理真实感、纹路细节和动作平滑度上表现出色,尽管目前还存在一些细节问题,例如部分场景的合理性不足,但整体效果已经引发了广泛关注和讨论。此外,Midjourney的图像模型V7也在不断更新,新增了“草稿模式”和“语音模式”,用户可以通过语音指令生成图像,且生成速度大幅提升。Midjourney的视频模型尚未正式发布,团队正在积极完善,并通过用户反馈优化模型性能和定价策略。Midjourney的这些新进展进一步巩固了其在视觉生成领域的领先地位。来源:微信公众号【量子位】

MIT工科生跨界AI,独作论文登Nature:只需3.5小时修复600年前名画
MIT的工科生Alex Kachkine通过跨学科研究,开发出一种结合AI的画作修复方法,并以独作论文登上《Nature》。他提出了一种“数字修复+物理实现”的全新方法,利用AI算法生成修复所需的双层遮罩,并将其打印在透明薄膜上贴于原画表面,从而在不损害原画的情况下完成修复。这一方法将修复时间从数月甚至数年缩短至几小时,例如修复一幅600年前的油画仅耗时3.5小时。Alex的背景涵盖机械工程、经济学和微系统工程,他的研究不仅提升了修复效率,还为艺术修复领域带来了创新思路,展现了跨学科研究的巨大潜力。来源:微信公众号【量子位】
