10月13日·SAM 3：让模型理解“概念”，开启分割新纪元

289 0 0

10月13日·周一 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

SAM 3：让模型理解“概念”，开启分割新纪元

ICLR 2026 上，SAM 3 引发了广泛关注。作为 Meta“Segment Anything”系列的最新成果，SAM 3 提出了“可提示概念分割”（PCS），能够通过文本或图像范例输入，为匹配的概念预测实例掩码和语义掩码。例如，用户输入“红苹果”，SAM 3 就能在图像或视频中找到并分割出所有对应实例。与前代相比，SAM 3 在可提示视觉分割和概念分割上均取得显著进步，性能大幅提升，处理速度更快。然而，也有观点认为这一概念并不新颖，但不可否认的是，SAM 3 在技术实现上迈出了重要一步，为计算机视觉领域带来了新的突破。来源：微信公众号【机器之心】

LLaVA-OneVision-1.5、全流程开源、低成本预训练

LLaVA-OneVision-1.5 在多模态领域取得了重要进展。该模型通过引入 RICE-ViT 支持原生分辨率与区域级细粒度语义建模，强化了图表、文档等场景的理解能力。其采用紧凑的三阶段训练流程，并结合离线并行数据打包等技术，将 8B 规模 VL 模型的预训练时间缩短至 4 天，成本控制在 1.6 万美元以内。此外，LLaVA-OneVision-1.5 完全开放了数据、训练工具链、配置脚本等，确保社区低成本复现与可验证拓展。在多项公开多模态基准测试中，LLaVA-OneVision-1.5 展现出了竞争性乃至更优的性能，为开源多模态模型的发展树立了新的标杆。来源：微信公众号【机器之心】

dInfer：推理速度提升 10 倍，扩散语言模型迎来高效推理时代

蚂蚁集团开源的 dInfer 框架为扩散语言模型（dLLM）的高效推理带来了重大突破。dInfer 通过邻近 KV 缓存刷新、多卡并行、编译优化等一系列算法与系统协同创新，攻克了 dLLM 的推理瓶颈，将推理速度提升 10 倍以上，在单批次推理场景下甚至超越了高度优化的自回归模型。例如，在 HumanEval 上，dInfer 达到了 1011 tokens/秒的吞吐量。其层级解码和信用解码等策略，在保证生成质量的前提下，最大化并行解码的 token 数量，极大地提高了推理效率。dInfer 的开源为研究人员和开发者提供了一个高效、可靠的推理框架，推动了扩散语言模型从理论走向实践的关键一步。来源：微信公众号【量子位】

Gemini 3：内测结果惊艳，或成“最强前端开发模型”

谷歌的下一代旗舰模型 Gemini 3 在内测阶段就获得了网友的一致好评，被认为是有史以来最出色的前端和网页开发模型。Gemini 3 特别擅长前端开发和 SVG 矢量图生成，能够一次性生成高质量的网页和动画效果。例如，它可以根据简单的提示词设计出精美的古代艺术博物馆网站，甚至在零样本提示下生成复杂的卡尔达舍夫等级 3 的演示网站。此外，Gemini 3 在多模态能力上也表现出色，能够生成原创音乐、绘制高质量的游戏背景图等。其强大的性能和多模态能力让人们对它的正式发布充满期待。来源：微信公众号【量子位】

诺奖成果“金属有机框架”被制成芯片，开启类脑计算新可能

莫纳什大学的科学家们将刚获得诺贝尔化学奖的金属有机框架（MOF）材料制成了芯片，这一成果为新一代计算机的发展带来了新的可能性。这种纳米流体芯片不仅具备常规计算能力，还能记住之前的电压变化，形成类似大脑神经元的短期记忆。研究人员通过构建分层纳米流体晶体管器件 h-MOFNT，实现了质子的非线性传输特性，并模拟了电子 FET 的输出电流特性。实验表明，该芯片具备流体忆阻和学习特性，能够记住过去电压状态。这一突破证明了 MOF 材料在液态系统中的巨大潜力，为未来的类脑计算和信息存储提供了新的方向。来源：微信公众号【量子位】 10月13日·SAM 3：让模型理解“概念”，开启分割新纪元