3月29日·港中文博士生破解GPT-4o生图秘密,揭示其原生自回归生成机制
3月29日·周六 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
港中文博士生破解GPT-4o生图秘密,揭示其原生自回归生成机制
港中文博士生Jie Liu破解了OpenAI的GPT-4o图像生成技术的秘密。他发现,GPT-4o的逐行生成效果仅是浏览器前端动画,并非实际生成过程。实际上,GPT-4o很可能是基于原生自回归(AR)模型生成图像,而非扩散模型。Jie Liu还发现,用户可以通过手动调整参数改变生成图像的模糊范围。此外,CMU博士Sangyun Lee推测GPT-4o生成视觉token后,由分组式扩散解码器按顺序解码为图像。谷歌DeepMind研究者Jon Barron则认为其生成机制可能是多尺度和自回归的组合。尽管技术细节尚未完全公开,但GPT-4o展现出的强大图像生成和理解能力已引发广泛关注。来源:微信公众号【新智元】

马斯克xAI收购X平台,新xAI估值飙升至1130亿美元
马斯克再次展现了其对AI的雄心壮志,宣布旗下社交平台X将以全股票交易方式出售给其AI公司xAI。合并后,xAI的估值达到1130亿美元,超过了此前对OpenAI的974亿美元收购报价。此次收购被视为马斯克“AI吞噬一切”战略的体现。xAI自成立以来发展迅猛,旗下拥有全球最大的AI超级计算机Colossus,正在训练Grok系列大语言模型。而X平台则拥有超过6亿全球活跃用户,是马斯克眼中的“数字广场”。通过此次整合,xAI将获得海量用户数据用于模型训练,同时借助X的影响力加速AI的普及。马斯克的这一举措不仅是对其AI战略的深化,也为其庞大的科技帝国注入了新的活力。来源:微信公众号【新智元】

智源发布跨本体具身大小脑协作框架RoboOS及开源具身大脑RoboBrain
智源研究院在中关村论坛上发布了首个跨本体具身大小脑协作框架RoboOS和开源具身大脑RoboBrain。RoboOS基于“大脑-小脑”分层架构,通过模块化设计和跨本体协作,实现了从单机智能到群体智能的跃迁。具身大脑RoboBrain负责全局感知与决策,小脑技能库负责低延迟精准执行,跨机器人数据中枢则实现多机器人之间的状态同步与智能协作。RoboBrain融合任务规划、可操作区域感知和轨迹预测能力,表现出卓越性能。此次发布推动了具身智能开源统一生态的繁荣,为机器人在复杂场景中的多机协作提供了底层技术支持。来源:微信公众号【新智元】

港大英伟达等团队推出Centaur方法,让自动驾驶汽车边开边学
自动驾驶汽车在复杂场景中往往因依赖预设规则而表现得过于谨慎,甚至可能引发安全隐患。针对这一问题,香港大学、英伟达和德国图宾根大学的联合团队提出了Centaur方法,首次将Test-Time Training(TTT)应用于端到端自动驾驶领域。该方法通过Cluster Entropy作为自监督信号,在测试推理过程中动态调整模型权重,适应OOD(Out-of-Distribution)场景,从而提升自动驾驶汽车的泛化能力和安全性。在navtest基准测试中,Centaur的综合规划与驾驶指标得分达到92.6%,接近人类驾驶水平。此外,团队还提出了navsafe数据集,用于更细致地评估自动驾驶系统在安全关键场景中的表现。Centaur的出现,标志着自动驾驶技术在适应性和安全性方面取得了重要进展。来源:微信公众号【量子位】

Adobe与港大推出ObjectMover模型,实现图像编辑中物体真实感移动
Adobe联合香港大学提出了一种新型图像编辑模型ObjectMover,该模型通过结合视频扩散模型的强大先验知识,并利用虚幻引擎合成数据进行训练,能够实现单张图像内物体的真实感移动。ObjectMover能够统一处理图像编辑中的物体移动、删除和插入任务,仅需用户指定边界框,即可自动同步处理相关的物理效果(如阴影、反射等)。实验结果表明,该模型在物体移动、删除和插入任务中均取得了优于现有方法的效果,展现出显著的物理规律理解能力。此外,ObjectMover首次将视频扩散模型应用于单帧图像编辑任务,并利用虚幻引擎生成合成数据进行训练,有效提高了模型在真实图像编辑任务中的泛化能力。来源:微信公众号【机器之心】
