10月13日·SAM 3:让模型理解“概念”,开启分割新纪元
10月13日·周一 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
SAM 3:让模型理解“概念”,开启分割新纪元
ICLR 2026 上,SAM 3 引发了广泛关注。作为 Meta“Segment Anything”系列的最新成果,SAM 3 提出了“可提示概念分割”(PCS),能够通过文本或图像范例输入,为匹配的概念预测实例掩码和语义掩码。例如,用户输入“红苹果”,SAM 3 就能在图像或视频中找到并分割出所有对应实例。与前代相比,SAM 3 在可提示视觉分割和概念分割上均取得显著进步,性能大幅提升,处理速度更快。然而,也有观点认为这一概念并不新颖,但不可否认的是,SAM 3 在技术实现上迈出了重要一步,为计算机视觉领域带来了新的突破。来源:微信公众号【机器之心】

LLaVA-OneVision-1.5、全流程开源、低成本预训练
LLaVA-OneVision-1.5 在多模态领域取得了重要进展。该模型通过引入 RICE-ViT 支持原生分辨率与区域级细粒度语义建模,强化了图表、文档等场景的理解能力。其采用紧凑的三阶段训练流程,并结合离线并行数据打包等技术,将 8B 规模 VL 模型的预训练时间缩短至 4 天,成本控制在 1.6 万美元以内。此外,LLaVA-OneVision-1.5 完全开放了数据、训练工具链、配置脚本等,确保社区低成本复现与可验证拓展。在多项公开多模态基准测试中,LLaVA-OneVision-1.5 展现出了竞争性乃至更优的性能,为开源多模态模型的发展树立了新的标杆。来源:微信公众号【机器之心】

dInfer:推理速度提升 10 倍,扩散语言模型迎来高效推理时代
蚂蚁集团开源的 dInfer 框架为扩散语言模型(dLLM)的高效推理带来了重大突破。dInfer 通过邻近 KV 缓存刷新、多卡并行、编译优化等一系列算法与系统协同创新,攻克了 dLLM 的推理瓶颈,将推理速度提升 10 倍以上,在单批次推理场景下甚至超越了高度优化的自回归模型。例如,在 HumanEval 上,dInfer 达到了 1011 tokens/秒的吞吐量。其层级解码和信用解码等策略,在保证生成质量的前提下,最大化并行解码的 token 数量,极大地提高了推理效率。dInfer 的开源为研究人员和开发者提供了一个高效、可靠的推理框架,推动了扩散语言模型从理论走向实践的关键一步。来源:微信公众号【量子位】

Gemini 3:内测结果惊艳,或成“最强前端开发模型”
谷歌的下一代旗舰模型 Gemini 3 在内测阶段就获得了网友的一致好评,被认为是有史以来最出色的前端和网页开发模型。Gemini 3 特别擅长前端开发和 SVG 矢量图生成,能够一次性生成高质量的网页和动画效果。例如,它可以根据简单的提示词设计出精美的古代艺术博物馆网站,甚至在零样本提示下生成复杂的卡尔达舍夫等级 3 的演示网站。此外,Gemini 3 在多模态能力上也表现出色,能够生成原创音乐、绘制高质量的游戏背景图等。其强大的性能和多模态能力让人们对它的正式发布充满期待。来源:微信公众号【量子位】

诺奖成果“金属有机框架”被制成芯片,开启类脑计算新可能
莫纳什大学的科学家们将刚获得诺贝尔化学奖的金属有机框架(MOF)材料制成了芯片,这一成果为新一代计算机的发展带来了新的可能性。这种纳米流体芯片不仅具备常规计算能力,还能记住之前的电压变化,形成类似大脑神经元的短期记忆。研究人员通过构建分层纳米流体晶体管器件 h-MOFNT,实现了质子的非线性传输特性,并模拟了电子 FET 的输出电流特性。实验表明,该芯片具备流体忆阻和学习特性,能够记住过去电压状态。这一突破证明了 MOF 材料在液态系统中的巨大潜力,为未来的类脑计算和信息存储提供了新的方向。来源:微信公众号【量子位】