3月18日

AI资讯速递1年前 (2024)发布 FuturX-Editor

342 0 0

3月18日·周一 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

马斯克履约开源Grok，超越Llama成全球最大开源模型

本周一，马斯克在他的社交媒体平台 X 上宣布 xAI 开源 Grok，这也兑现了他上周的开源承诺。截至目前，Grok 已经在 GitHub 上获得了 4.3k 颗 Star。Grok-1 是一个由 xAI 从头训练的 3140 亿参数的混合专家模型，其中 25% 的权重来处理给定的标记。xAI 这次发布的是大型语言模型 Grok-1 的基本模型权重和网络架构，使用了 Apache-2.0 许可证。Grok 的架构是在 2023 年 10 月使用自定义训练堆栈在 JAX 和 Rust 上开发的，采用了创新的神经网络设计方法。该版本是 Grok-1 预训练阶段的原始基本模型检查点，该阶段于 2023 年 10 月宣告结束。这意味着该模型并未针对任何一种特定的应用（比如对话和交谈）进行了微调。来源：微信公众号【AI前线】

没等来OpenAI，等来了Open-Sora全面开源，Colossal-AI 团队发布的「Open-Sora 1.0」

Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权重，携手全球 AI 热爱者共同推进视频创作的新纪元。Colossal-AI 团队已经全面免费开源在 GitHub，同时笔者第一时间联系了该团队，了解到他们将不断更新 Open-Sora 的相关解决方案和最新动态，模型采用了目前火热的 Diffusion Transformer (DiT) [1] 架构。作者团队以同样使用 DiT 架构的高质量开源文生图模型 PixArt-α [2] 为基座，在此基础上引入时间注意力层，将其扩展到了视频数据上。具体来说，整个架构包括一个预训练好的 VAE，一个文本编码器，和一个利用空间 – 时间注意力机制的 STDiT (Spatial Temporal Diffusion Transformer) 模型。来源：微信公众号【机器之心】

拖拽P图技术又升级了：StableDrag更稳、更准，南大、腾讯联合打造

通过拖拽，我们可以改变并合成自己想要的图像，比如让一头狮子转头并张嘴。南京大学、腾讯的几位研究者提出了一种判别式点跟踪方法并针对动作监督采用了基于置信的潜在增强策略，构建了一个更加稳定和精确的拖拽编辑框架 ——StableDrag。其中判别式点跟踪方法能够精确地定位更新的操纵点，提高长程操纵稳定性；基于置信的潜在增强策略能够在所有操纵步骤中，保证优化的潜在变量尽可能地高质量。得益于这些独特的设计，研究者实例化了两种类型的图像编辑模型：StableDrag-GAN 和 StableDrag-Diff。这两个模型在 DragBench 上进行了广泛的定性和定量评估，结果都显示出更加稳定的拖拽效果。来源：微信公众号【机器之心】

无需训练，Fast-DetectGPT让文本检测速度提升340倍

近期提出了一种新的文本检测方法 ——Fast-DetectGPT，无需训练，直接使用开源小语言模型检测各种大语言模型生成的文本内容。Fast-DetectGPT 将检测速度提高了 340 倍，将检测准确率相对提升了 75%，成为新的 SOTA。在广泛使用的 ChatGPT 和 GPT-4 生成文本的检测上，均超过商用系统 GPTZero 的准确率。Fast-DetectGPT 同时做到了高准确率、高速度、低成本、通用，扫清了实际应用的障碍！Fast-DetectGPT 依赖于预训练语言模型来覆盖多个领域和语言，但没有单一的模型可以覆盖所有的语言和领域，要使检测器更通用，我们可能需要联合多个语言模型以获得更全面的覆盖。另一方便，条件概率曲率能区分机器生成文本和人类撰写文本，也可能区分由两个不同模型生成的文本（作者识别），还可能用于判别 OOD 文本（OOD 检测）。这些方向的应用值得进一步研究。来源：微信公众号【机器之心】

一键点、万物动！腾讯混元联合清华、港科大推出图生视频大模型“Follow Your Click”

3月15日，腾讯混元和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“，基于输入模型的图片，只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成视频。当前的图生视频大模型中，一般的生成方法不仅需要用户在提示词中描述运动区域，还需要提供运动指令的详细描述，过程较为复杂。另外，从生成的效果来看，现有图像生成视频技术在移动图像的指定部分上缺乏控制，生成的视频往往需要移动整个场景，而不是图像上的某一个区域，精准度和灵活性上有所欠缺。为了解决这些问题，腾讯混元大模型团队、清华和港科大的联合项目组提出了更实用和可控的图像到视频生成模型Follow-Your-Click，带来更加便捷的交互，也让图片“一键点，万物动”成为现实。来源：微信公众号【51CTO技术栈】