4月27日

AI资讯速递1年前 (2024)发布 FuturX-Editor

365 0 0

4月27日·周六 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Vidu：当前最强国产Sora！清华团队突破16秒长视频，懂多镜头语言，会模拟物理规律

生数科技联合清华大学最新发布的视频大模型「Vidu」所官宣的视频。可以看出，它生成的视频不再是持续几秒的「GIF」，而是达到了十几秒（最长可以达到 16 秒左右）。当然更令人惊喜的是，「Vidu」画面效果非常接近 Sora，在多镜头语言、时间和空间一致性、遵循物理规律等方面表现都非常出色，而且还能虚构出真实世界不存在的超现实主义画面，这是当前的视频生成模型难以实现的。在短短两个月的时间，生数科技能实现到这般效果，着实令人惊喜。「Vidu」底层基于完全自研的 U-ViT 架构，该架构由团队在 2022 年 9 月提出，早于 Sora 采用的 DiT 架构，是全球首个 Diffusion 和 Transformer 融合的架构。在技术路线上，「Vidu」采用了和 Sora 完全一致的 Diffusion 和 Transformer 融合的架构。不同于采用插帧的多步骤处理方式来达到长视频的生成，「Vidu」采用的是和 Sora 一致的路线，即通过单一步骤直接生成高质量的视频。从底层来看，这是一种「一步到位」的实现方法，基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理，文本到视频的转换是直接且连续的。另外基于 U-ViT 架构，2023 年 3 月，团队在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型 ——UniDiffuser，并将其开源。来源：微信公众号【机器之心】

苹果OpenAI合作，力争今年生成式AI登陆iPhone

苹果在各国市场的 AI 领域，一直在业内寻求可靠并值得信赖的合作伙伴，以助于将各类生成式 AI 技术应用于 iPhone。例如：在中国市场，据 WSJ 报道：苹果近日宣布，为国行版 iPhone 16 系列、即将发布的 IOS18 操作系统、及 MAC 系统提供先进的 AI 功能，将与中国领先的 AI 公司百度达成战略合作。百度将通过该战略合作协议，为苹果提供包括语音智能识别、自然语言处理、图像识别等在内的多项 AI 技术支持，以让苹果用户获得生成式 AI 的理解、生成、逻辑、记忆四大核心能力体验。除了第三方技术，苹果还投入了大量资源以开发自己的生成式 AI 模型。苹果公司的研究人员近日在 AI 代码社区 Hugging Face 模型库上发布了 OpenELM 大模型，这是一个包含数个小型语言模型的系列。苹果在其 Hugging Face 模型页面上表示：「OpenELM 代表『开源高效语言模型』，在与文本相关的任务，如电子邮件撰写方面表现非常高效。这些模型是开源的，并且已经准备好供开发者使用。」来源：微信公众号【机器之心】

与 Nat Friedman 和 Daniel Gross 推演人工智能的发展

分享给大家的文章来自知名的“科技与商业战略” 博客 Stratechery，作者是 Stratechery 的创办人 Ben Thompson，这是我最近读到过的最专业也最有洞察的一篇有关人工智能领域的文章。英文原文需要订阅付费，首先我建议想全面阅读的朋友去付费订阅 Ben Thompson 的博客，我把这篇3万1千多字的文章翻译成中文，是我的研究资料之一，同时我认为 AI 作为最受关注的前沿科技领域，高质量的观点值得更多人能看到，而今天媒体上的噪音和浮躁也过于多了。再说到这篇文章的采访对象，Nat Friedman 和 Daniel Gross 是一对投资二人组，他们很像是 “人工智能时代” 的 Marc Andreessen 和 Ben Horowitz，后者通过创办了 A16Z 在 2008 年之后成为了移动互联网时代硅谷的顶级投资人。他们两个人非常有能量，也对世界有自己独到的思考，之后我想专门写一篇这两位的文章介绍他们。从 2017 年开始，Nat 与 Daniel 开始了在人工智能领域的合伙投资，成立了一家名为 AI Grant 的组织，这既是一个 “ 分布式人工智能实验室 ”，也是一个新型的投资基金。这样 “科技与研究驱动的，具有风险投资能力的新型组织” 也会在 AI 时代越来越多。来源：微信公众号【范阳】

阿里智能体“组装工厂”开源！0经验搞定上万Agent并发

让多智能体开发就像搭积木，阿里巴巴通义实验室开源多智能体编程框架与开发平台AgentScope。该平台专门为多智能体应用开发者打造，旨在提供高易用的编程体验、稳定可靠的运行时保障，并且为开发者提供了分布式和多模态的技术支持。内置了OpenAI、DashScope、Gemini、Ollama等多种不同平台的模型API，深度兼容当下的大模型开源生态。AgentScope提供了多种开箱即用的功能，通过简单拖拽就能搭建多智能体应用。即使没有分布式开发经验的开发者，在AgentScope平台上也能轻松实现上万级别的多智能体并发。为了让更多用户能够快速、轻松地开发属于自己的多智能体应用。AgentScope提供了以下功能：拖拽式的编程范式——AgentScope Workstation：为用户提供了可视化的拖拽式开发界面。交互式编程助手——AgentScope Copilot：解答开发者关于AgentScope的疑问。透明可控的开发过程——应用实时监控：实时监控应用运行成本、多智能体状态，实现透明且可控的开发。丰富的开发资源：助力快捷且方便的二次开发，搭建应用无需“从零开始”。来源：微信公众号【量子位】