10月17日·李飞飞团队推出实时3D世界模型RTFM，单GPU即可运行

180 0 0

10月17日·周五 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

李飞飞团队推出实时3D世界模型RTFM，单GPU即可运行

斯坦福大学教授李飞飞的创业公司World Labs推出了名为RTFM（Real-Time Frame Model）的实时3D世界模型。该模型能够在单个H100 GPU上运行，以一张或多张2D图像作为输入，直接生成同一场景在不同视角下的全新2D图像。RTFM基于大规模视频数据训练，通过端到端的自回归扩散Transformer模型，学会了建模3D几何、反射、阴影等特征。它不仅可以用于实时渲染复杂场景，还能从稀疏拍摄的照片中重建真实世界的场景。这一成果标志着世界模型在计算效率和实时性方面的重大突破，为未来渲染和空间智能领域的发展提供了新的方向。来源：微信公众号【机器之心】

苹果DeepMMSearch-R1模型，革新多模态搜索体验

苹果公司发布了DeepMMSearch-R1模型，旨在提升多模态大语言模型（MLLM）在多模态Web搜索中的性能。该模型通过自我反思和自我纠正机制，动态生成和优化文本搜索查询，并利用检索到的内容作为反馈进行改进。为了提升图像搜索效果，苹果引入了中间图像裁剪工具Grounding DINO，以应对背景噪声和干扰性视觉实体的挑战。DeepMMSearch-R1采用两阶段训练流程：先进行有监督微调（SFT），再通过GRPO算法进行在线强化学习。这一模型在多模态视觉问答（VQA）任务中表现出色，显著超越了以往的开源基线模型，为多模态搜索领域带来了新的突破。来源：微信公众号【机器之心】

AI招聘乱象：LinkedIn上的代码陷阱引发900万人围观

在AI招聘领域，求职者和招聘人员之间的“斗智斗勇”愈演愈烈。Stripe高管Cameron Mattis在LinkedIn个人简介中嵌入了一段代码，要求AI生成的招聘邮件中包含一份法式焦糖布丁的食谱。这一实验意外地成功了，吸引了900万网友围观。这一事件凸显了AI在招聘过程中可能被操控的风险，尤其是在处理外部数据源时。这种“提示注入”攻击利用了大模型对用户输入和系统指令区分不明确的漏洞，导致模型生成了非预期的输出。随着越来越多的公司采用AI进行招聘，如何确保AI系统的安全性和可靠性成为了一个亟待解决的问题。来源：微信公众号【量子位】

阿里云AI蓝军：守护AI时代的安全防线

阿里云曝光了其神秘的AI蓝军团队，这支队伍专注于通过攻击手段测试和提升AI系统的安全性。AI蓝军的工作超越了传统蓝军的技术对抗，演变成了一场融合语言学、心理学、社会学和哲学的认知博弈。他们通过精心设计的恶意提示、越狱指令和诱导性问题，对大模型进行“灵魂拷问”，以发现潜在的安全漏洞。例如，在首届“AI安全”全球挑战赛中，选手通过构建高压职场情境，成功诱导大模型执行恶意代码。AI蓝军的每一次攻击都为防御团队提供了宝贵的改进机会，推动了AI安全技术的不断发展。来源：微信公众号【量子位】

百度PaddleOCR-VL：0.9B参数量横扫四大核心能力SOTA

百度发布了PaddleOCR-VL，一款仅0.9B参数量的多模态文档解析模型。该模型在OmniDocBench V1.5榜单上以92.6分的综合性能获得全球第一，同时在文本识别、公式识别、表格理解和阅读顺序四大核心能力上全面拿下SOTA。PaddleOCR-VL通过创新性的两阶段架构设计，结合NaViT动态分辨率视觉编码器和ERNIE-4.5-0.3B语言模型，实现了高效率和高精度的文档解析。它不仅支持109种语言，还能处理复杂公式、嵌套表格和手写图表等难度场景。这一模型的发布，标志着百度在多模态文档解析领域的重大突破，为行业提供了新的技术标杆。来源：微信公众号【量子位】 10月17日·李飞飞团队推出实时3D世界模型RTFM，单GPU即可运行