10月17日·李飞飞团队推出实时3D世界模型RTFM,单GPU即可运行
10月17日·周五 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
李飞飞团队推出实时3D世界模型RTFM,单GPU即可运行
斯坦福大学教授李飞飞的创业公司World Labs推出了名为RTFM(Real-Time Frame Model)的实时3D世界模型。该模型能够在单个H100 GPU上运行,以一张或多张2D图像作为输入,直接生成同一场景在不同视角下的全新2D图像。RTFM基于大规模视频数据训练,通过端到端的自回归扩散Transformer模型,学会了建模3D几何、反射、阴影等特征。它不仅可以用于实时渲染复杂场景,还能从稀疏拍摄的照片中重建真实世界的场景。这一成果标志着世界模型在计算效率和实时性方面的重大突破,为未来渲染和空间智能领域的发展提供了新的方向。来源:微信公众号【机器之心】

苹果DeepMMSearch-R1模型,革新多模态搜索体验
苹果公司发布了DeepMMSearch-R1模型,旨在提升多模态大语言模型(MLLM)在多模态Web搜索中的性能。该模型通过自我反思和自我纠正机制,动态生成和优化文本搜索查询,并利用检索到的内容作为反馈进行改进。为了提升图像搜索效果,苹果引入了中间图像裁剪工具Grounding DINO,以应对背景噪声和干扰性视觉实体的挑战。DeepMMSearch-R1采用两阶段训练流程:先进行有监督微调(SFT),再通过GRPO算法进行在线强化学习。这一模型在多模态视觉问答(VQA)任务中表现出色,显著超越了以往的开源基线模型,为多模态搜索领域带来了新的突破。来源:微信公众号【机器之心】

AI招聘乱象:LinkedIn上的代码陷阱引发900万人围观
在AI招聘领域,求职者和招聘人员之间的“斗智斗勇”愈演愈烈。Stripe高管Cameron Mattis在LinkedIn个人简介中嵌入了一段代码,要求AI生成的招聘邮件中包含一份法式焦糖布丁的食谱。这一实验意外地成功了,吸引了900万网友围观。这一事件凸显了AI在招聘过程中可能被操控的风险,尤其是在处理外部数据源时。这种“提示注入”攻击利用了大模型对用户输入和系统指令区分不明确的漏洞,导致模型生成了非预期的输出。随着越来越多的公司采用AI进行招聘,如何确保AI系统的安全性和可靠性成为了一个亟待解决的问题。来源:微信公众号【量子位】

阿里云AI蓝军:守护AI时代的安全防线
阿里云曝光了其神秘的AI蓝军团队,这支队伍专注于通过攻击手段测试和提升AI系统的安全性。AI蓝军的工作超越了传统蓝军的技术对抗,演变成了一场融合语言学、心理学、社会学和哲学的认知博弈。他们通过精心设计的恶意提示、越狱指令和诱导性问题,对大模型进行“灵魂拷问”,以发现潜在的安全漏洞。例如,在首届“AI安全”全球挑战赛中,选手通过构建高压职场情境,成功诱导大模型执行恶意代码。AI蓝军的每一次攻击都为防御团队提供了宝贵的改进机会,推动了AI安全技术的不断发展。来源:微信公众号【量子位】

百度PaddleOCR-VL:0.9B参数量横扫四大核心能力SOTA
百度发布了PaddleOCR-VL,一款仅0.9B参数量的多模态文档解析模型。该模型在OmniDocBench V1.5榜单上以92.6分的综合性能获得全球第一,同时在文本识别、公式识别、表格理解和阅读顺序四大核心能力上全面拿下SOTA。PaddleOCR-VL通过创新性的两阶段架构设计,结合NaViT动态分辨率视觉编码器和ERNIE-4.5-0.3B语言模型,实现了高效率和高精度的文档解析。它不仅支持109种语言,还能处理复杂公式、嵌套表格和手写图表等难度场景。这一模型的发布,标志着百度在多模态文档解析领域的重大突破,为行业提供了新的技术标杆。来源:微信公众号【量子位】