4月13日·周六 AI工具和资源推荐
AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
GPT超越扩散、视觉生成Scaling Law时刻!北大&字节提出VAR范式
新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了!使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws 缩放定律、Zero-shot Task Generalization 泛化能力。这项名为 VAR 的新工作由北京大学和字节跳动的研究者提出,登上了 GitHub 和 Paperwithcode 热度榜单,并得到大量同行关注。研究团队从图像模态内在本质出发,模仿人类处理图像的逻辑顺序,提出一套全新的「视觉自回归」生成范式:VAR, Visual AutoRegressive Modeling,首次使得 GPT 风格的自回归视觉生成,在效果、速度、Scaling 能力多方面超越 Diffusion,并迎来了视觉生成领域的 Scaling Laws。来源:微信公众号【机器之心】
仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景
为了让文本驱动的 3D 场景编辑也能够实现精准控制,美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学,共同提出了一种将文本描述和参考图像统一为编辑提示的 CustomNeRF 框架,可以通过微调预训练的扩散模型将参考图像中包含的特定视觉主体 V∗嵌入到混合提示中,从而满足一般化和定制化的 3D 场景编辑要求。该研究成果目前已被 CVPR 2024 收录,代码已开源。该论文提出了一种局部 – 全局迭代编辑(LGIE)的训练方案,在图像前景区域编辑和全图像编辑之间交替进行。该方案能够准确定位图像前景区域,并在保留图像背景的同时仅对图像前景进行操作。在由图像驱动的 3D 场景编辑中,存在因微调的扩散模型过拟合到参考图像视角,所造成的编辑结果几何不一致问题。对此,该论文设计了一种类引导的正则化,在局部编辑阶段仅使用类词来表示参考图像的主体,并利用预训练扩散模型中的一般类先验来促进几何一致的编辑。来源:微信公众号【机器之心】
谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
最近,来自澳大利亚蒙纳士大学、蚂蚁集团、IBM 研究院等机构的研究人员探索了模型重编程 (model reprogramming) 在大语言模型 (LLMs) 上应用,并提出了一个全新的视角:高效重编程大语言模型进行通用时序预测 –- 其提出的 Time-LLM 框架无需修改语言模型即可实现高精度时序预测,在多个数据集和预测任务中超越了传统的时序模型,让 LLMs 在处理跨模态的时间序列数据时展现出色,就像大象起舞一般!本文阐述了如何通过重编程大语言模型 (LLM Reprogramming) 进行通用时序预测。其提出了两项关键技术,即 (1) 时序输入重编程 和 (2) 提示做前缀,将时序预测任务转换成一个可以由 LLMs 有效解决的「语言」任务,成功激活了大语言模型做高精度时序推理的能力。来源:微信公众号【机器之心】
Salesforce AI Research 刘志伟:像Agent一样思考
《AgentLite: A Lightweight Library for Building and Advancing Task-Oriented LLM Agent System》
解决问题:现有的 LLM-based Agent 库没有统一且可编写的底层架构,AgentLite 提供了一套能够针对特定化问题,任意修改代码的 Agent 平台,让科研人员更便捷的去开发特定应用场景的 Agent
模型框架:AgentLite 分为 Maganer Agent、Individual Agent 两层,Manager Agent 根据给定任务指令创建子任务并进行分发,Individual Agent 通过 PromptGen 模块生成指令,发送给 LLM 执行后将结果输出
应用场景:Agent Library,开发者可以在 AgentLite 平台上进行任意类型 Agent 开发,例如图像理解、数学问题、国际象棋、哲学家聊天等
测试结果:AgentLite 可适用于任意 LLM,同时展现了其架构在处理 HotPotQA 复杂任务时具有的强大有效性。来源:微信公众号【緑洲资本 Vitalbridge】
凯文·凯利2024最新演讲:从四个方向理解AI
3月29日,中信出版集团联合上海交通大学上海高级金融学院邀请到凯文·凯利(K.K.)来到中国,展开一场精彩的线下对谈。读者们熟悉的K.K.,是《连线》杂志的创始主编,是《失控》《必然》《5000天后的世界》等畅销书的作者。除了科技预言式写作,去年K.K.也正式出版了一本凝结了他 70 年人生经验的智慧箴言录——《宝贵的人生建议》。现场,K.K. 以《What’s Next:in AI and Digital World》为主题带来了他对于全球科技下一步发展趋势的深入思考和精彩见地,讨论了关于谁是AI的第一批使用者、AI与人类所产生的情感羁绊等问题。来源:微信公众号【腾讯研究院】