2月29日

AI资讯速递1年前 (2024)更新 FuturX-Editor

443 0 0

2月29日·周四 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

阿里发EMO模型，视频不可信了

2月28日，阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO（Emote Portrait Alive）。EMO仅需一张人物肖像照片和音频，就可以让照片中的人物按照音频内容“张嘴”唱歌、说话，且口型基本一致，面部表情和头部姿态非常自然。EMO不仅能够生成唱歌和说话的视频，还能在保持角色身份稳定性的同时，根据输入音频的长度生成不同时长的视频。EMO的工作过程分为两个主要阶段：首先，利用参考网络（ReferenceNet）从参考图像和动作帧中提取特征；然后，利用预训练的音频编码器处理声音并嵌入，再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块，以确保视频中角色身份的一致性和动作的自然流畅。这个过程相当于，AI先看一下照片，然后打开声音，再随着声音一张一张地画出视频中每一帧变化的图像。EMO的技术报告中称：实验结果表明，EMO不仅能够产生令人信服的说话视频，还能生成各种风格的歌唱视频，显著优于现有的先进方法，如DreamTalk、Wav2Lip和SadTalker，无论是在表现力还是真实感方面。目前，研究团队认为该模型的潜在应用方向将集中在：提高数字媒体和虚拟内容生成技术水平，特别是在需要高度真实感和表现力的场景中。来源：微信公众号【虎嗅APP】

谷歌重磅推出Genie世界模型！人工智能卷向新时代

OpenAI和Meta之后，谷歌公布了世界模型领域相关进展。据谷歌官网，Genie是根据互联网视频训练的基础世界模型，可以从合成图像、照片、草图生成多种动作可控的环境。随着谷歌入局，世界模型领域变得更加热闹，但谁能引领世界模型的风向，目前还难下定论。Sora是否世界模型此前已引起争议，反对者认为其视频生成方式与世界模型的因果预测有很大不同。从Sora发布的视频看，高保真的同时，模拟物理规律似乎是弱点，目前也还难以看出交互能力。谷歌Genie则在交互性上下功夫，可推断出生成环境中的潜在动作，但在视频真实性和清晰度的层面，Genie还未呈现出Sora般的水平。Genie是一个110亿参数的基础世界模型，能从互联网视频中学习细粒度的控制，不仅能了解哪些部分是可控的，还能推断出生成的环境中的潜在动作。据谷歌放出的论文，Genie由三部分组成，由一个简单且可扩展的潜在动作模型推断每对帧之间的潜在动作，由一个视频分词器将原始视频帧转换为离散标志（token），以及一个动态模型，在给定潜在动作和过去帧token的情况下预测下一帧。来源：微信公众号【第一财经】

特斯拉手机应用上线AI聊天助手：特斯拉助手Beta版

特斯拉在其手机应用软件中推出了一个名为“特斯拉助手Beta版”的人工智能聊天助手功能，为用户提供了一个全新的交互体验。这一更新标志着特斯拉在提升用户体验方面又迈出了重要一步。特斯拉助手Beta版能够回答用户关于特斯拉现有产品以及其他特斯拉产品的问题，帮助用户更好地了解和使用特斯拉的产品。尽管从Beta版的命名来看，这个AI助手目前尚处于初期阶段，但其潜力和价值已经引起了广泛关注。现在，随着特斯拉手机应用上线AI聊天助手，马斯克再次在AI领域展现了他的决心和实力。这一创新举措不仅将提升特斯拉用户的体验，也将推动AI技术在汽车行业的更广泛应用。来源：微信公众号【聚大模型前言】