5月21日·谷歌Veo 3实现音画同步，AI视频进入“视听一体”新时代

652 0 0

5月21日·周三 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

谷歌Veo 3实现音画同步，AI视频进入“视听一体”新时代

谷歌近日发布Veo 3，首次实现AI视频音画同步。Veo 3不仅能生成高质量视频，还能理解视频像素，自动生成与画面同步的对话、音效。只需一个提示词，就能生成画面、对白、唇动对齐和拟音音效一气呵成的视频。其对物理世界的深刻理解，让声音与画面实时同步生成，还能精准捕捉画面情绪，渲染氛围音效。Veo 3在长提示词理解与事件流生成方面表现出色，能完成完整、时间有序、逻辑清晰的小片段。目前Veo 3仅面向美国Ultra订阅用户开放，定价为249.99美元/月。音画同步生成，标志着视频模型进入新时代，未来音画一体或成视频模型竞赛标配。来源：微信公众号【机器之心】

英伟达AI新突破！让机器人“做梦”学习，实现无师自通

英伟达推出新研究项目DreamGen，通过AI让机器人在虚拟“梦境”中自主学习新技能。该技术并非让机器人观看视频，而是将其置于神经网络生成的像素级虚拟世界中，自主探索和学习。DreamGen可生成数十万条带有动作标签的神经轨迹，帮助机器人快速掌握新技能，并泛化到全新环境中。在模拟和现实世界实验中，DreamGen显著提升了机器人在复杂任务中的成功率，如叠毛巾、擦液体等。其合成数据规模可达原始数据的333倍，且仅用少量真实轨迹就能让机器人学会多种新技能。这一技术为机器人学习开辟了新路径，未来有望实现更广泛的应用。来源：微信公众号【新智元】

华为发布两大黑科技，大模型推理实现“秒回”

华为近日曝光两大技术创新——FusionSpec和OptiQuant，旨在突破大模型推理的速度瓶颈。FusionSpec通过优化投机推理框架，将推理耗时降至1毫秒，打破延迟魔咒。OptiQuant则支持灵活量化，提升推理性价比。这两项技术结合昇腾的强大计算能力，大幅优化了大模型的推理效率，让模型在中国服务器上实现“秒回”。未来，FusionSpec和OptiQuant的融合将为大模型推理开辟新路径，推动AI技术的广泛应用。来源：微信公众号【新智元】

谷歌I/O 2025：Gemini大模型引领AI技术全面爆发

在2025年5月21日的Google I/O开发者大会上，谷歌凭借一系列AI技术的突破性进展，再次站在了行业前沿。Gemini成为大会焦点，其2.5版本在多个基准测试中位居全球第一，展现了强大的多模态能力。谷歌还推出了Gemini Diffusion，推理速度大幅提升，生成速度是现有最快模型的五倍。此外，编程工具Jules和Gemini Code Assist升级，为开发者提供更高效、智能的编码体验。在媒体生成领域，Veo 3和Imagen 4分别在视频和图像生成方面取得重大突破，支持音视频结合和更精细的图像细节。谷歌还展示了AI在搜索、购物和视频通信中的新应用，如AI模式、虚拟试穿和Google Beam平台。此次大会不仅彰显了谷歌在AI领域的深厚技术积累，也标志着其在AI应用层面的强势回归，为未来智能互联世界描绘了宏伟蓝图。来源：微信公众号【机器之心】

飞书知识问答上线，AI融入企业工作流

企业应用AI并非简单接入大模型，而是需要深度融合业务流程。飞书推出的新功能“飞书知识问答”为企业提供了一个专属AI问答工具，能够根据企业内部消息、文档、知识库等信息生成精准答案，支持不同角色获取不同视角的答案。该功能基于DeepSeek等大模型和RAG检索增强技术，结合企业权限体系，确保知识管理的安全性和针对性。飞书知识问答的推出，标志着企业知识管理从静态存储向动态流动升级，AI正在成为企业日常工作中的默认工具，而非外在的附加品。来源：微信公众号【量子位】