4月8日·周一 AI工具和资源推荐
AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源
华中科技大学的研究团队针对多模态大模型(LMM)在视觉任务中的应用挑战,推出了针对性的解决方案:PSALM 模型。这一模型的设计理念是:通过一个统一的框架处理绝大多数类型的图像分割任务,从而实现分割任务的全面覆盖。同时,得益于多模态大模型广泛的预训练,PSALM 不仅在已见分割任务上表现出色,更在诸多未曾训练过的开放场景分割任务中,展现出强大的零样本泛化能力。多模态大模型作为视觉任务统一框架的巨大潜力得到进一步挖掘。PSALM 代表了多模态大模型在统一图像分割领域的一次积极探索,其在参数优化、性能展示以及泛化能力方面均取得了显著成果。PSALM 的创新架构和条件提示机制,使其能够灵活处理多样化的输入输出需求,从而在各种基准任务中取得优异的成绩。来源:微信公众号【机器之心】
超10秒高分辨率,北大Open Sora视频生成更强了,还支持华为芯片
今年 3 月初,北大团队联合兔展启动了 Sora 复现计划 ——Open Sora Plan,该项目希望通过开源社区的力量复现 Sora。项目上线一个月,星标量已经达到 6.6k。现在这个项目终于有了新成果,Open-Sora-Plan v1.0.0 来了,新研究显著增强了视频生成的质量以及对文本的控制能力。研究者表示,他们正在训练更高分辨率(>1024)以及更长时间(>10s)的视频。目前该项目已支持国产 AI 芯片(华为昇腾 910b)进行推理,下一步将支持国产算力训练。项目作者林彬表示:Open-Sora-Plan v1.0.0 可以生成1024×1024分辨率视频,也能生成10 秒、24 FPS 的高清视频。而且它还能够生成高分辨率图像。目前发布的 CausalVideoVAE(v1.0.0)有两个主要缺点:运动模糊和网格效果。团队正在改进这些缺点,后续版本很快就会上线。来源:微信公众号【机器之心】
千元级AI 模盒,云天励飞率先打响大模型「平民化」之战
从 Gemini、Lumiere、再到 Sora,“百模大战” 的 “战火” 延续至 2024 年。诸多的大模型已经诞生,接下来的任务是落地。但行业大模型在落地过程中,遇到的瓶颈就像是一座冰山,藏在冰山下面的问题,更加棘手。要做物理世界的解码者,为 “无形” 技术和 “有形” 世界构建通道,这是云天励飞的定位。如何构建 AI 落地的通道?2024 年,围绕 “自进化城市智能体” 的理念,云天励飞持续深耕 AI 市场,并且在 3 月发布 “深目” AI 模盒,为 AI 大模型落地长尾场景交上一份新答卷.2024 年,AI 行业迈向下一个阶段,此时处于第一、第二阶段转换的关键时期,这个阶段长尾场景算法带来的问题不容忽视。长尾场景指的是火灾等低频事件、更细分、更复杂的场景,极端场景识别训练的数据几乎为 “0”,需要高昂的算法成本,但商业价值并不明显。业内人士将其称为冰山之下的 “死亡之谷”。特别是在智慧城市、交通管理等应用场景,需要解决算法训练成本高、缺乏训练数据等痛点。今年会是云天励飞 AI 产业化布局加速的一年,不管是技术迭代,还是 AI 落地,在 “百模大战” 的大模型落地竞速赛中,云天励飞将围绕算法芯片化技术能力,打造出新的技术底座,并赋能到千行百业中,AI 普惠化、大模型 “平民化” 将是下一阶段的关键词。来源:微信公众号【机器之心】
北大&火山引擎夺冠!CLIC视频压缩挑战赛结果公布,中国团队表现亮眼
近日,第六届深度学习图像压缩挑战赛(以下将简称“CLIC大赛”)比赛结果公布,由火山引擎多媒体实验室与北大组成的联合参赛平台b-2在高码率视频压缩和低码率视频压缩两个赛道均夺得主客观指标冠军。基于深度学习技术,b-2平台提出了一项“传统-智能混合解决方案”。b-2 平台在充分理解传统压缩技术与深度学习压缩技术的各自原理的基础上,发挥两种技术路线的各自优势,取长补短,将二者有机融合成为一个整体,形成了独具特色的传统——智能混合解决方案。传统编码模块在业界已有传统编码框架基础上,加入了非对称四叉树划分等创新技术。智能编码模块则引入了基于深度学习的环路滤波等技术。火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。来源:微信公众号【量子位】
乌嘉文:LLM应用层判断与边界
在CES 2024,李飞飞在争论LLM和AIGC名称不能混用,吴恩达觉得在公众传播没关系。李飞飞觉得难以接受,个人猜测是它模糊了大模型的本质。在公众传播层面:AIGC:指用Stable Diffusion或Midjourney生成图像内容,后来泛指用AI生成音乐、图像、视频等内容。LLM:指NLP领域的大语言模型,如ChatGPT。GenAI:生成式人工智能模型,国内官方政策文件使用这个词相对科学,涵盖了LLM和AIGC。AGI:指通用人工智能,部分人觉得LLM具有AGI潜力,LeCun反对。公众传播一般会混用上述名词,但底层是transformer结构。(stable diffusion原采用LDM+UNet,后来改为DiT)而transformer底层是function loss损失函数。Transformer是一个大参数(千亿级别)的回归方程。回归方程的Function loss拟合A to B mapping关系,实现数据集的压缩与还原。Transformer是在一定prompt condition情况下,repeat曾经出现过的数据内容,实现“生成”能力。大语言模型的智能体验在两个数据集压缩后,能解释两个数据集之间地带的“连续”能力。(Ilya)所以大语言模型是一个perfect memory,repeat曾经出现的内容。它与Alpha Go差异:Alpha Go是一个增强学习模型,学习结果会调整模型自身参数Alpha Go有推理能力,但大语言模型这块很弱。总结:Transformer决定LLM是一个生成式模型。来源:微信公众号【 Garman笔记】