3月29日·港中文博士生破解GPT-4o生图秘密，揭示其原生自回归生成机制

211 0 0

3月29日·周六 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

港中文博士生破解GPT-4o生图秘密，揭示其原生自回归生成机制

港中文博士生Jie Liu破解了OpenAI的GPT-4o 图像生成技术的秘密。他发现，GPT-4o的逐行生成效果仅是浏览器前端动画，并非实际生成过程。实际上，GPT-4o很可能是基于原生自回归（AR）模型生成图像，而非扩散模型。Jie Liu还发现，用户可以通过手动调整参数改变生成图像的模糊范围。此外，CMU博士Sangyun Lee推测GPT-4o生成视觉token后，由分组式扩散解码器按顺序解码为图像。谷歌DeepMind研究者Jon Barron则认为其生成机制可能是多尺度和自回归的组合。尽管技术细节尚未完全公开，但GPT-4o展现出的强大图像生成和理解能力已引发广泛关注。来源：微信公众号【新智元】

马斯克xAI收购X平台，新xAI估值飙升至1130亿美元

马斯克再次展现了其对AI的雄心壮志，宣布旗下社交平台X将以全股票交易方式出售给其AI公司xAI。合并后，xAI的估值达到1130亿美元，超过了此前对OpenAI的974亿美元收购报价。此次收购被视为马斯克“AI吞噬一切”战略的体现。xAI自成立以来发展迅猛，旗下拥有全球最大的AI超级计算机Colossus，正在训练Grok系列大语言模型。而X平台则拥有超过6亿全球活跃用户，是马斯克眼中的“数字广场”。通过此次整合，xAI将获得海量用户数据用于模型训练，同时借助X的影响力加速AI的普及。马斯克的这一举措不仅是对其AI战略的深化，也为其庞大的科技帝国注入了新的活力。来源：微信公众号【新智元】

智源发布跨本体具身大小脑协作框架RoboOS及开源具身大脑RoboBrain

智源研究院在中关村论坛上发布了首个跨本体具身大小脑协作框架RoboOS和开源具身大脑RoboBrain。RoboOS基于“大脑-小脑”分层架构，通过模块化设计和跨本体协作，实现了从单机智能到群体智能的跃迁。具身大脑RoboBrain负责全局感知与决策，小脑技能库负责低延迟精准执行，跨机器人数据中枢则实现多机器人之间的状态同步与智能协作。RoboBrain融合任务规划、可操作区域感知和轨迹预测能力，表现出卓越性能。此次发布推动了具身智能开源统一生态的繁荣，为机器人在复杂场景中的多机协作提供了底层技术支持。来源：微信公众号【新智元】

港大英伟达等团队推出Centaur方法，让自动驾驶汽车边开边学

自动驾驶汽车在复杂场景中往往因依赖预设规则而表现得过于谨慎，甚至可能引发安全隐患。针对这一问题，香港大学、英伟达和德国图宾根大学的联合团队提出了Centaur方法，首次将Test-Time Training（TTT）应用于端到端自动驾驶领域。该方法通过Cluster Entropy作为自监督信号，在测试推理过程中动态调整模型权重，适应OOD（Out-of-Distribution）场景，从而提升自动驾驶汽车的泛化能力和安全性。在navtest基准测试中，Centaur的综合规划与驾驶指标得分达到92.6%，接近人类驾驶水平。此外，团队还提出了navsafe数据集，用于更细致地评估自动驾驶系统在安全关键场景中的表现。Centaur的出现，标志着自动驾驶技术在适应性和安全性方面取得了重要进展。来源：微信公众号【量子位】

Adobe与港大推出ObjectMover模型，实现图像编辑中物体真实感移动

Adobe联合香港大学提出了一种新型图像编辑模型ObjectMover，该模型通过结合视频扩散模型的强大先验知识，并利用虚幻引擎合成数据进行训练，能够实现单张图像内物体的真实感移动。ObjectMover能够统一处理图像编辑中的物体移动、删除和插入任务，仅需用户指定边界框，即可自动同步处理相关的物理效果（如阴影、反射等）。实验结果表明，该模型在物体移动、删除和插入任务中均取得了优于现有方法的效果，展现出显著的物理规律理解能力。此外，ObjectMover首次将视频扩散模型应用于单帧图像编辑任务，并利用虚幻引擎生成合成数据进行训练，有效提高了模型在真实图像编辑任务中的泛化能力。来源：微信公众号【机器之心】