3月5日·UCLA团队实现2B模型多模态推理“啊哈时刻”

3月5日·周三  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

UCLA团队实现2B模型多模态推理“啊哈时刻”

UCLA等机构的研究团队在全球首次成功复现了DeepSeek-R1的“啊哈时刻”,在未经监督微调的20亿参数模型上实现了多模态推理。研究团队采用强化学习(RL)方法,直接对Qwen2-VL-2B基础模型进行训练,未使用监督微调,最终在CVBench基准测试中达到59.47%的准确率,显著优于基础模型和指令微调模型。实验中,模型展现出自我反思和重新审视推理过程的能力,类似于人类的“啊哈时刻”。此外,研究还发现更长的推理过程对视觉任务有显著益处。该成果已开源,旨在推动多模态推理领域的进一步发展。来源:微信公众号【新智元】

3月5日·UCLA团队实现2B模型多模态推理“啊哈时刻”

PyTorch灵魂人物Horace He加入OpenAI前CTO创立的Thinking Machines

PyTorch核心开发者Horace He宣布离开Meta,加入由OpenAI前CTO Mira Murati创立的初创公司Thinking Machines。Horace He在PyTorch工作4年,曾收到OpenAI、Anthropic、xAI等多家顶级AI实验室的邀请,但最终选择加入这家初创公司。他在博客中分享了加入Thinking Machines的原因:一是团队实力强大且氛围友好;二是作为创始工程师,机会成本不对称,早期加入能获得更大的影响力;三是公司追求开放科学和广泛AI扩散的使命与他个人价值观高度契合。Horace He的离职被PyTorch之父Soumith Chintala评价为“巨大损失”,但他对未来在Thinking Machines的工作充满期待。来源:微信公众号【新智元

3月5日·UCLA团队实现2B模型多模态推理“啊哈时刻”

字节跳动开源量子化学计算工具集ByteQC,助力大规模体系模拟

字节跳动ByteDance Research团队开源了量子化学计算工具集ByteQC,旨在解决大规模化学体系模拟的高复杂度问题。该工具集基于GPU加速,实现了多种标准量子化学算法的高效计算,包括Hartree-Fock方法、密度泛函理论、耦合簇方法等。通过引入高效张量计算库和优化缓存技术,ByteQC在单A100 GPU上实现了比100核CPU高达60倍的加速,显著提升了可计算体系的规模。例如,CCSD (T)方法可处理的轨道数从传统方法的几百提升至1,380轨道。此外,结合量子嵌入方法,ByteQC在保持“黄金标准”精度的同时,进一步扩展了计算能力,成功应用于水团簇和氮化硼表面吸附等实际问题。ByteQC的开源为材料、制药和催化等领域的研究提供了强大的计算支持,推动量子化学计算向大规模实用化迈进。来源:微信公众号【机器之心

3月5日·UCLA团队实现2B模型多模态推理“啊哈时刻”

ChatGPT被“无大象房间”难倒,Grok 3轻松通关

ChatGPT在生成“有0头大象的房间”图像时出现了一个有趣的问题:尽管提示词明确要求“0头大象”,但生成的图像中仍会出现大象,这一现象引发了广泛讨论。相比之下,Grok 3和谷歌Gemini 2.0等模型则能轻松生成符合要求的图像。分析认为,ChatGPT的问题可能源于其底层扩散模型Dall-E 3对否定概念的理解不足。此外,ChatGPT还因内容规范问题拒绝生成玫瑰图像,但通过调整提示词(如使用复数或表情符号)可绕过限制。这一现象也引发了对AI内容过滤机制的讨论。与此同时,当要求生成“有-1头大象的房间”时,Grok 3通过推理生成了强调缺失元素的创意图像,而ChatGPT虽有类似思路,但推理模型与绘图工具的整合仍存在不足。这一事件再次凸显了AI模型在理解和生成复杂提示词方面的差异。来源:微信公众号【量子位

3月5日·UCLA团队实现2B模型多模态推理“啊哈时刻”

上海AI Lab等团队开源空间具身通用操作模型SpatialVLA

上海AI Lab、TeleAI、上海科技大学等机构的研究团队开源了空间具身通用操作模型SpatialVLA。该模型通过百万真实数据预训练,赋予机器人通用的3D物理世界空间理解能力,解决了现有模型在2D输入、3D感知和环境适应性方面的局限性。SpatialVLA引入Ego3D位置编码和自适应空间动作网格等关键技术,显著提升了机器人在复杂环境中的操作性能。实验表明,该模型在zero-shot泛化控制、新场景高效微调和空间理解能力等多方面表现出色,尤其在光照变化、物体布局变化等复杂场景下展现了优越的鲁棒性。目前,SpatialVLA的预训练代码已全面开源,支持快速部署和高效微调,为机器人领域的研究和应用提供了新的工具。来源:微信公众号【量子位

3月5日·UCLA团队实现2B模型多模态推理“啊哈时刻”
© 版权声明

相关文章

暂无评论

暂无评论...