3月5日

AI资讯速递1年前 (2024)发布 FuturX-Editor

388 0 0

3月5日·周二 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

大一统视频编辑框架：浙大&微软推出UniEdit，无须训练、支持多种编辑场景

来自浙江大学、微软亚洲研究院和北京大学的研究者提出了一个基于文本描述的视频编辑统一框架 UniEdit，不仅涵盖了风格迁移、背景替换、刚性 / 非刚性物体替换等传统外观编辑场景，更可以有效地编辑视频中对象的动作，例如将以上视频中浣熊弹吉他的动作变成「吃苹果」或是「招手」。此外，除了灵活的自然语言接口和统一的编辑框架，这一模型的另一大优势是无需训练，大大提升了部署的便捷性和用户使用的方便度。UniEdit 相较于其他视频编辑方法，其独特之处体现在：多功能：支持视频「动作」编辑以及多种视频「外观」编辑场景。无需训练：UniEdit 直接利用与训练的文本到视频生成模型，无需额外训练或微调。灵活性：可兼容不同文本到视频生成模型，可以使用更加强大的视频生成模型提升 UniEdit 编辑质量。来源：微信公众号【机器之心】

Mac专属大模型框架来了！两行代码部署，能聊本地数据，还支持中文

黄院士推出的新框架，让苹果电脑也跑起了本地大模型，而且只要两行代码就能完成部署。仿照Chat with RTX，框架的名字就叫Chat with MLX（MLX是苹果机器学习框架），由一名OpenAI前员工打造。黄院士的框架里有的功能，例如本地文档总结、YouTube视频分析，Chat with MLX里也都有。而且包括中文在内共有11种可用语言，自带支持的开源大模型多达七种。体验过的用户表示，虽然计算量负担对苹果设备可能大了点，但是新手也很容易上手。可能是受制于算力原因，在苹果设备上部署本地大模型，效果无法和英伟达的Chat with RTX相媲美。同时，在GitHub上，也有许多用户反馈各种各样的安装失败问题，作者也都进行了回复或跟进，并把程序重新更新了一遍。但无论如何，选择本地化部署，数据的安全性可能是更为重要的考量因素；而且从中可以看出，本地化、专属化的大模型，已经开始出现向消费级产品普及的趋势。来源：微信公众号【量子位】

北大发起复现Sora，框架已搭！袁粒田永鸿领衔，AnimateDiff大神响应

北大团队联合兔展发起了一项Sora复现计划——Open Sora。初始团队一共13人：带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。目前公布的技术细节——即团队打算如何复现Sora。整体框架上，它将由三部分组成：Video VQ-VAE、Denoising Diffusion Transformer（去噪扩散型Transformer）、Condition Encoder（条件编码器）。这和Sora技术报告的内容基本差不多。对于Sora视频的可变长宽比，团队通过参考上海AI Lab刚刚提出的FiT（Flexible Vision Transformer for Diffusion Model，即“升级版DiT”）实施一种动态掩码策略，从而在并行批量训练的同时保持灵活的长宽比。对于可变分辨率，团队则表示在推理过程中，尽管在固定的256×256分辨率上进行训练,，但使用位置插值来实现可变分辨率采样。成员介绍，目前的训练是在8个A100-80G上进行的（明显还远远不够），输入大小为8帧 128 128，大概需要1周时间才能生成类似ucf（一个视频数据集）的效果。而从目前已经列出的9项to do事项来看，除了可变长宽比、可变分辨率和可变时长，动态掩码输入、在embeddings上添加类条件这两个任务也已完成。来源：微信公众号【量子位】

RNN效率媲美Transformer，谷歌新架构两连发：同等规模强于Mamba

在谷歌 DeepMind 近日的一篇论文中，研究者提出了 RG-LRU 层，它是一种新颖的门控线性循环层，并围绕它设计了一个新的循环块来取代多查询注意力（MQA）。他们使用该循环块构建了两个新的模型，一个是混合了 MLP 和循环块的模型 Hawk，另一个是混合了 MLP 与循环块、局部注意力的模型 Griffin。研究者表示，Hawk 和 Griffin 在 held-out 损失和训练 FLOPs 之间表现出了幂律缩放，最高可以达到 7B 参数，正如之前在 Transformers 中观察到的那样。其中 Griffin 在所有模型规模上实现了比强大 Transformer 基线略低的 held-out 损失。研究者针对一系列模型规模、在 300B tokens 上对 Hawk 和 Griffin 进行了过度训练，结果显示，Hawk-3B 在下游任务的性能上超越了 Mamba-3B，尽管训练的 tokens 数量只有后者的一半。Griffin-7B 和 Griffin-14B 的性能与 Llama-2 相当，尽管训练的 tokens 数量只有后者的 1/7。此外，Hawk 和 Griffin 在 TPU-v3 上达到了与 Transformers 相当的训练效率。由于对角 RNN 层受内存限制，研究者使用了 RG-LRU 层的内核来实现这一点。来源：微信公众号【机器之心】

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

ControlNet作者最新推出的一项研究受到了一波高度关注——给一句prompt，用Stable Diffusion可以直接生成单个或多个透明图层（PNG）！不仅生成了符合prompt的完整图像，就连背景和人物也能分开。ControlNet作者提出的新方法——LayerDiffusion，允许大规模预训练的潜在扩散模型（Latent Diffusion Model）生成透明图像。LayerDiffusion的核心，是一种叫做潜在透明度（latent transparency）的方法。简单来说，它可以允许在不破坏预训练潜在扩散模型（如Stable Diffusion）的潜在分布的前提下，为模型添加透明度。为了实现透明度的编码和解码，作者训练了两个独立的神经网络模型：一个是潜在透明度编码器（latent transparency encoder），另一个是潜在透明度解码器（latent transparency decoder）。编码器接收原始图像的RGB通道和alpha通道作为输入，将透明度信息转换为潜在空间中的一个偏移量。来源：微信公众号【量子位】