3月15日·周五 AI工具和资源推荐
AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
今日,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 30B 参数的多模态 LLM 系列。该团队在论文中探讨了不同架构组件和数据选择的重要性。并且,通过对图像编码器、视觉语言连接器和各种预训练数据的选择,他们总结出了几条关键的设计准则。首先,研究者在模型架构决策和预训练数据选择上进行小规模消融实验,并发现了几个有趣的趋势。建模设计方面的重要性按以下顺序排列:图像分辨率、视觉编码器损失和容量以及视觉编码器预训练数据。其次,研究者使用三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。他们发现,当涉及少样本和纯文本性能时,交错和纯文本训练数据非常重要,而对于零样本性能,字幕数据最重要。这些趋势在监督微调(SFT)之后仍然存在,这表明预训练期间呈现出的性能和建模决策在微调后得以保留。最后,研究者构建了 MM1,一个参数最高可达 300 亿(其他为 30 亿、70 亿)的多模态模型系列, 它由密集模型和混合专家(MoE)变体组成,不仅在预训练指标中实现 SOTA,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。来源: 微信公众号【机器之心】
Sora竟是用这些数据训练的?OpenAI CTO坦白惹众怒
OpenAI 的 Sora 在今年 2 月横空出世,把文生视频带向了新阶段。它能够根据文字提示生成超现实场景。Sora 的可适用人群受限,但是在各媒体平台上,Sora 的身影无处不在,大家都在期待着使用它。在前几天的访谈中,三位作者透露出 Sora 的更多细节,包括它处理手部时仍然存在困难,但正在优化。他们也对 Sora 更多的优化方向进行了阐述,要让用户能够对视频画面有更加精准的控制。不过,短期内,Sora 并不会对公众公开。毕竟 Sora 能够生成与现实十分接近的视频,这会引发很多问题。而正因如此,它还需要更多的改进,人们也需要更多时间来适应。OpenAI 还计划在 Sora 中加入音频生成的功能,让视频生成效果更加逼真。接下来,他们也会继续优化 Sora,包括帧与帧之间连贯性、产品的易用性以及成本。OpenAI 也希望添加用户编辑 Sora 生成视频的功能。毕竟 AI 工具的成果并不是百分百准确。如果用户能够在 Sora 的基础上进行再创作,想必会有更好的视频效果和更准确的内容表达。当然,技术解读上的深入浅出只是采访的一部分,另一部分始终围绕着安全、担忧这样的大众话题。来源:微信公众号【机器之心】
保障消费者权益,百度联合深圳市消委会推出全国首个消费者组织数字人
“3·15国际消费者权益日”之际,百度联合深圳市消费者委员会(后简称“深圳市消委会”) 推出全国首个消费者组织数字人“鹏维维”,解锁数字时代与消费者互动的无限可能。数字人“鹏维维”由百度AIGC创意生成平台擎舵为其提供了数字人建模、语音克隆、动作捕捉、人工智能和算法驱动等强大的技术支持。擎舵基于文心一言底层大数据模型,利用领先的数字人建模技术和语音克隆技术,实现了对真人和语音1:1还原,还为数字人打造了细腻的表情、连贯的动作,让数字人带给用户更接近真人的交流体验。在擎舵能力的支持下,数字人“鹏维维”输入脚本可完全匹配唇形,再现真人音色和说话风格,“鹏维维”拥有了生动的表情、自然的动作和流畅的语言表达能力,未来将化身兼具亲和力和专业素养的消费纠纷调解员、消保知识宣传员和消费维权志愿者。后续将在消费教育、普法宣传等工作中,与消费者建立深度链接。来源:微信公众号【百度营销中心】
2024阿里巴巴全球数学竞赛启动,首次向AI开放
3月14日,2024阿里巴巴全球数学竞赛开启报名。今年赛事最大的革新在于首次向AI开放,诚邀全球AI大模型挑战竞赛难度试题,准备用一场双向奔赴来激发人类与AI的数学潜力。数学不仅承载人类智慧的杰出成果,更是推动新一轮AI创新的关键。当前,AI已在自然语言、视频生成等方面展现出惊人表现,但在解决复杂数学问题上,AI仍存有不少局限,尚未展现其创造性的潜力。相比之下,人类拥有更灵活的思维和抽象能力。邀请AI参赛,也是一场独特的科普,有助于厘清公众对AI的误解,推动数学与AI的前沿探索。由阿里巴巴公益、达摩院共同举办的阿里巴巴全球数学竞赛,以不设报名门槛、趣味十足著称,今年举办至第六届,已成长为世界上最大的在线数学竞赛,累计吸引来自五大洲、70多个国家和地区、25万人次参赛者踊跃挑战。来源:微信公众号【达摩院DAMO】
音视频掀起变革新浪潮!海思用一套鸿鹄媒体解决方案交卷
昨天,2024年中国家电及消费电子博览会(AWE 2024)开幕。同期,海思首次展示面向音视频行业的鸿鹄媒体解决方案,这正是其面向智能终端的全新“5+2”解决方案之一。在音视频领域,鸿鹄媒体解决方案从性能、影音、交互、互联四大维度出发,面向TV、投影、机顶盒、云电脑等智能硬件设备。这是海思以芯片、相应标准为核心,拿出端到端的技术能力,实现了跨场景构建解决方案。再加上其对媒体业务的深度理解与市场洞察,鸿鹄媒体解决方案打造了面向旗舰与入门档产品的不同方案,将媒体SoC与星闪、Wi-Fi、ISP、TCON等技术相结合,重构音视频行业的性能、画质和交互体验。来源:微信公众号【智东西】