2月29日

AI资讯速递1年前 (2024)更新 FuturX-Editor
377 0

2月29日·周四 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

阿里发EMO模型,视频不可信了

2月28日,阿里巴巴智能计算研究所发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。EMO不仅能够生成唱歌和说话的视频,还能在保持角色身份稳定性的同时,根据输入音频的长度生成不同时长的视频。EMO的工作过程分为两个主要阶段:首先,利用参考网络(ReferenceNet)从参考图像和动作帧中提取特征;然后,利用预训练的音频编码器处理声音并嵌入,再结合多帧噪声和面部区域掩码来生成视频。该框架还融合了两种注意机制和时间模块,以确保视频中角色身份的一致性和动作的自然流畅。这个过程相当于,AI先看一下照片,然后打开声音,再随着声音一张一张地画出视频中每一帧变化的图像。EMO的技术报告中称:实验结果表明,EMO不仅能够产生令人信服的说话视频,还能生成各种风格的歌唱视频,显著优于现有的先进方法,如DreamTalk、Wav2Lip和SadTalker,无论是在表现力还是真实感方面。目前,研究团队认为该模型的潜在应用方向将集中在:提高数字媒体和虚拟内容生成技术水平,特别是在需要高度真实感和表现力的场景中。来源:微信公众号【 虎嗅APP】

谷歌重磅推出Genie世界模型!人工智能卷向新时代

OpenAI和Meta之后,谷歌公布了世界模型领域相关进展。据谷歌官网,Genie是根据互联网视频训练的基础世界模型,可以从合成图像、照片、草图生成多种动作可控的环境。随着谷歌入局,世界模型领域变得更加热闹,但谁能引领世界模型的风向,目前还难下定论。Sora是否世界模型此前已引起争议,反对者认为其视频生成方式与世界模型的因果预测有很大不同。从Sora发布的视频看,高保真的同时,模拟物理规律似乎是弱点,目前也还难以看出交互能力。谷歌Genie则在交互性上下功夫,可推断出生成环境中的潜在动作,但在视频真实性和清晰度的层面,Genie还未呈现出Sora般的水平。Genie是一个110亿参数的基础世界模型,能从互联网视频中学习细粒度的控制,不仅能了解哪些部分是可控的,还能推断出生成的环境中的潜在动作。据谷歌放出的论文,Genie由三部分组成,由一个简单且可扩展的潜在动作模型推断每对帧之间的潜在动作,由一个视频分词器将原始视频帧转换为离散标志(token),以及一个动态模型,在给定潜在动作和过去帧token的情况下预测下一帧。来源:微信公众号【 第一财经】

特斯拉手机应用上线AI聊天助手:特斯拉助手Beta版

特斯拉在其手机应用软件中推出了一个名为“特斯拉助手Beta版”人工智能聊天助手功能,为用户提供了一个全新的交互体验。这一更新标志着特斯拉在提升用户体验方面又迈出了重要一步。特斯拉助手Beta版能够回答用户关于特斯拉现有产品以及其他特斯拉产品的问题,帮助用户更好地了解和使用特斯拉的产品。尽管从Beta版的命名来看,这个AI助手目前尚处于初期阶段,但其潜力和价值已经引起了广泛关注。现在,随着特斯拉手机应用上线AI聊天助手,马斯克再次在AI领域展现了他的决心和实力。这一创新举措不仅将提升特斯拉用户的体验,也将推动AI技术在汽车行业的更广泛应用。来源:微信公众号【聚大模型前言】

© 版权声明

相关文章

暂无评论

暂无评论...