10月5日·Meta发布Movie Gen,引领AI视频生成新纪元
10月5日·周六 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
Meta发布Movie Gen,引领AI视频生成新纪元
Meta公司近日发布了名为Movie Gen的AI视频生成工具,标志着人工智能在视频制作领域的重大突破。Movie Gen包含两个模型:Movie Gen Video和Movie Gen Audio,分别负责视频和音频生成。Video模型是一个30B参数的Transformer,能够根据文本提示生成1080p、16秒、每秒16帧的高清视频。Audio模型则为13B参数,能生成与视频同步的高保真音频。Meta还公开了92页的技术报告,详细介绍了Movie Gen的架构和训练细节,展示了其在视频生成精度和细节上超越现有技术的能力。尽管产品预计明年才正式向公众开放,但这一发布无疑为AI视频领域注入了新的活力。来源:微信公众号【新智元】

Ai2发布开源多模态AI模型Molmo,挑战行业巨头
Ai2公司近日发布了一款名为Molmo的多模态人工智能模型,该模型在性能上可与Claude 3.5 Sonnet和GPT-4o相媲美,甚至在某些方面超越了这些顶尖模型。Molmo模型的体积小,可以在本地运行,无需依赖API、订阅服务或昂贵的GPU集群。Molmo完全免费且开源,包括权重、代码、数据和评估流程。Ai2公司通过精心挑选和注释60万张图像,展示了数据质量优于数量的理念。Molmo模型能够处理图像描述任务,并在细节描述和准确度上表现出色。此外,Molmo还引入了独特的二维“指向”数据,使其能够在零样本情况下执行更广泛的任务。Ai2公司首席执行官Ali Farhadi表示,Molmo的成功证明了在AI领域,“小即是新大”,即用更少的资源实现更多功能。来源:微信公众号【机器之心】

谷歌NotebookLM生成AI播客引发作家惊喜
谷歌NotebookLM的新功能“音频概述”能将文字内容转化为播客形式,引发了游戏作家Kyle Orland的关注。他发现自己关于扫雷游戏的书籍被NotebookLM转换成了一段12分半钟的AI播客,感到既惊讶又欣喜。尽管播客中存在细节错误和假设,Orland认为这种格式对于传递复杂信息更具吸引力,比文本聊天机器人的回复更加有趣和自然。他指出,AI播客为那些没有时间或兴趣阅读全书的人提供了一种新的选择,尽管它不能完全替代真人播客,但这种形式提供了一种愉快的背景噪音,适合在外出散步或办事时聆听。来源:微信公众号【新智元】

全球首台Arm超算Isambard 2退役,Isambard 3接棒
全球首台基于Arm架构的超级计算机Isambard 2已正式退役。这台由布里斯托尔大学领导开发的超算自2018年起服役,为模拟分子、天气预报等研究领域提供了重要支持。Isambard 2使用的是Cavium开发的64位Armv8 ThunderX2处理器和Nvidia P100 GPU。随着技术的不断进步,新一代超算Isambard 3将采用384块英伟达Grace CPU,预计性能和能效将是Isambard 2的6倍,有望在生命科学、医学、天体物理等领域取得更多突破。Isambard 3预计将成为欧洲最节能的系统之一,并有可能跻身世界Top500超算排行榜前列。来源:微信公众号【新智元】

Chat Edit 3D实现文本驱动的三维场景编辑
在即将到来的ECCV 2024会议上,一项名为Chat Edit 3D的新技术将被展示,该技术能够通过文本提示实现三维场景的交互式编辑。这项工作由北京航空航天大学、谷歌和旷视等机构合作完成,将3D场景编辑任务转化为2D空间中的图集编辑,从而实现了对现有方法的“降维打击”。Chat Edit 3D利用大规模语言模型来解析用户输入的文本,并调用相应的视觉模型完成编辑任务。此外,该框架能够集成任意数量的视觉模型,极大地丰富了文本对话能力和场景编辑能力。该技术在多轮对话编辑案例中展现了处理各种编辑请求的能力,包括对象移除或替换、风格迁移、深度图预测等。Chat Edit 3D的代码已经开源,供研究者和开发者进一步探索和应用。来源:微信公众号【机器之心】

【今日案例】
未来十年,AI如何颠覆我们的日常生活?
https://yuanbao.tencent.com/bot/app/share/chat/11be3962750e4418aae0be9321507ffe/issueShare