10月16日·谷歌 Veo 3.1 重大更新，挑战 Sora 2

230 0 0

10月16日·周四 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

谷歌 Veo 3.1 重大更新，挑战 Sora 2

谷歌发布了最新的 AI 视频生成模型 Veo 3.1，带来了更丰富的音频支持、叙事控制和更逼真的质感还原。Veo 3.1 在前代基础上提升了提示词遵循度，并在以图生视频时提供更高的视听质量。其驱动的 AI 电影创作工具 Flow 也迎来更新，支持原生音频生成，用户可以在生成阶段直接添加音频，而无需后期制作。此外，Veo 3.1 还引入了多种输入类型支持，包括参考图像、首帧与末帧插值等，进一步提升了视频生成的灵活性和控制力。该模型目前处于预览阶段，仅在 Gemini API 的付费层级中可用。来源：微信公众号【机器之心】

苹果 M5 芯片发布，M1 用户或迎来升级良机

苹果发布了新一代自研芯片 M5，基于第三代 3 纳米制程，采用全新的 10 核 GPU 架构。M5 的峰值 GPU AI 计算性能是 M4 的 4 倍以上，并首次在每个 GPU 核心中集成了神经加速器，显著提升了 AI 和图形处理能力。此外，M5 的图形性能也大幅提升，配备第三代光线追踪引擎，支持更高的刷新率和更逼真的 3D 渲染。M5 将率先搭载于新款 14 英寸 MacBook Pro、iPad Pro 和 Apple Vision Pro。尽管 M5 性能提升显著，但对于追求更高性能的用户，M5 Pro/Max 或 M6 更值得关注。来源：微信公众号【机器之心】

国内首个超少样本具身模型 FAM-1 发布，斩获顶会冠军

中科第五纪发布了国内首个超少样本通用具身操作基础模型 FAM-1，基于 BridgeVLA 架构，实现了大规模视觉语言模型与三维机器人操作控制之间的高效知识迁移。FAM-1 仅需 3-5 条样本即可完成精准具身操作学习，成功率高达 97%，全面超越当前 SOTA 模型。该模型在少样本学习、跨场景适应及复杂任务理解方面取得重大突破，特别是在国际公开评测基准 RLBench 和 Colosseum 上表现优异。FAM-1 的发布标志着国内具身智能领域在少样本学习方面迈出了重要一步，为机器人在工业生产与人机协作场景中的应用提供了新的技术支撑。来源：微信公众号【量子位】

多模态大模型 UniPixel 实现像素级推理，性能超越传统模型

香港理工大学和腾讯 ARC Lab 研究团队提出了首个统一的像素级多模态大模型 UniPixel，首次实现了目标指代、像素级分割与区域推理三大任务的统一建模。UniPixel 通过引入对象记忆机制和统一视觉编码方式，支持点、框、掩码等多种视觉提示，能够精准识别用户指定目标并将其纳入后续对话中。该模型在多个公开基准测试集上展现出显著性能优势，特别是在分割任务和区域理解任务上，表现优于现有 72B 传统模型。UniPixel 的提出为多模态 AI 从“模态对齐”走向“细粒度理解”提供了新的技术路径。来源：微信公众号【量子位】

AI 挖出癌症潜在新疗法，谷歌耶鲁联手攻克冷肿瘤难题

谷歌与耶鲁大学合作推出了 Cell2Sentence-Scale 27B 大模型，旨在攻克癌症免疫疗法中的冷肿瘤难题。冷肿瘤因免疫信号微弱，难以被免疫系统察觉，导致传统免疫疗法效果不佳。Cell2Sentence-Scale 27B 模型通过模拟免疫情境环境，对 4000 多种药物进行测试，最终锁定激酶 CK2 抑制剂 silmitasertib 作为潜在药物。实验表明，该药物在人类神经内分泌细胞模型上显著增强了抗原呈递效果，验证了模型的预测。这一成果为冷肿瘤的治疗提供了新的希望，也展示了 AI 在医疗领域的巨大潜力。来源：微信公众号【量子位】 10月16日·谷歌 Veo 3.1 重大更新，挑战 Sora 2