4月16日

未分类5个月前发布 大Joe
138 0

4月16日·周二 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Sora进驻Adobe视频编辑软件!新版Premiere Pro开启AI剪辑时代

Sora要被集成在Adobe视频剪辑软件里了。在最新发布的Premier Pro概念演示里,Adobe展示了与OpenAI合作的探索成果:在主镜头之外,完全由Sora生成一段B-roll辅助镜头。除了Sora之外,其他流行AI视频工具Runway和Pika也将作为可选项。其中Runway在演示中与Sora用法类似,可以生成一段全新的辅助镜头。需要强调的是,这些功能还处于早期预览和研究阶段,尚未透露何时发布。与之相比,由Adobe自己的AI产品Firefly支持的功能确定性更强一些。专业剪辑师无需离开Premiere Pro,就能轻松在视频中添加和删除物体,以及在时间轴上扩展素材。今年之内,视频剪辑工作流将正式进入AI时代。来源:微信公众号【量子位】

极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行

来自上海人工智能实验室的研究人员提出了 Linear Attention Sequence Parallelism (LASP) 方法以充分利用 Linear Attention 的线性右乘特性实现高效的序列并行计算。在 128 卡 A100 80G GPU、TransNormerLLM 1B 模型、FSDP backend 的配置下,LASP 可以最高将序列长度扩展至 4096K,即 4M。与成熟的序列并行方法相比,LASP 可训练的最长序列长度是 Megatron-SP 的 8 倍、DeepSpeed Ulysses 的 4 倍,速度则分别快了 136% 和 38%。值得注意的是,虽然方法的名字包含 Linear Attention,LASP 并不局限于 Linear Attention 方法,而是可以广泛应用于包括 Lightning Attention (TransNormerLLM), State Space Modeling (Mamba), Linear RNN (RWKV, HGRN, Griffin) 等在内的线性序列建模方法。来源:微信公众号【机器之心】

DeepMind升级Transformer,前向通过FLOPs最多可降一半

近日,Google DeepMind 研究了这个问题,他们希望使用更低的计算预算来缩减 Transformer 使用的计算量。DeepMind 的这个团队采用了类似于混合专家(MoE) Transformer 的方法,其中会在整个网络深度上执行动态 token 层面的路由决策。而与 MoE 不同的是,这里他们的选择是:要么是将计算应用于 token(和标准 Transformer 一样),要么就是通过一个残差连接绕过它(保持不变,节省计算)。另一个与 MoE 的不同之处是:这里是将这种路由机制同时用在 MLP 和多头注意力上。因此,这也会影响网络处理的键值和查询,因此该路由不仅要决定更新哪些 token,还要决定哪些 token 可供关注。DeepMind 将这一策略命名为 Mixture-of-Depths(MoD),以突显这一事实:各个 token 在 Transformer 深度上通过不同数量的层或模块。来源:微信公众号【机器之心】

李飞飞团队年度报告揭底大模型训练成本:Gemini Ultra是GPT-4的2.5倍

今天,斯坦福 HAI 研究所发布了第七个年度的 AI Index 报告,这是关于人工智能行业现状的最全面的报告之一。报告指出,人工智能的发展正以惊人的速度向前推进,开发人员每月都在制造出越来越强大、越来越复杂的模型。然而,尽管发展速度加快,人工智能行业在解决人们对人工智能可解释性的担忧以及对其对人们生活影响的日益紧张方面却进展甚微。在今年的报告中,斯坦福 HAI 研究所增加了有关负责任人工智能的扩展章节,有关科学和医学领域人工智能的新章节,以及对研发、技术性能、经济、教育、政策和治理、多样性和公众舆论的综述。来源:微信公众号【机器之心】

给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力

为了找到一个通用的向 3D 视觉迁移的方法,让不论哪种模态的大模型都能高效地理解点云数据,中国电信李学龙联合西北工业大学、北京大学、上海人工智能实验室的团队提出了 Any2Point,这是一个从任意模态迁移到 3D 的统一框架,能够通过参数高效微调(PEFT)将任意 1D(语言)或 2D(图像/音频)大型模型迁移至 3D 领域。与先前方法不同,Any2Point 避免了点云投影,从而减少了 3D 信息的损失,并直接对源模态的预训练模型进行微调,通过知识蒸馏节省了资源。该机制在输入 3D 点与它们虚拟投影的 1D 线或 2D 平面之间建立位置映射。这样就能够使用预训练大型模型源模态的原始位置嵌入来编码 3D 坐标。这种方式不需要真正进行投影,也就避免了 3D 几何信息的丢失,同时还能更好地促进预训练 Transformer 利用其原始的 1D/2D 位置先验来获取 3D 特征。来源:微信公众号【络绎科学】

© 版权声明

相关文章

暂无评论

暂无评论...