12月13日

AI资讯速递2年前 (2023)更新 FuturX-Editor

459 0 0

12月13日·周三

零一万物最新发声：不涉及套壳、抄袭，权威榜单排名直追GPT-4

由李开复创办的AI独角兽零一万物，在11月6日正式发布了首款开源中英双语大模型——Yi。不过在原阿里技术副总裁、深度学习框架Caffe发明者贾扬清暗指某国内大厂新模型套壳LLaMA架构后，零一万物受到波及，陷入了“套壳”风波。面对质疑，在11月15日，零一万物官微发布了《零一万物对 Yi-34B 训练过程的说明》，至于沿用LLaMA部分推理代码经实验更名后的疏忽，原始出发点是为了充分测试模型，执行对比实验，对部分推理参数进行了重新命名，并非为了刻意隐瞒。值得一提的是，选择在一个月后再次发声，还有一个原因是，近期零一万物在多个榜单上凭实力 “扬眉吐气”。11月24日，Yi-34B-Chat微调模型开源上线，在斯坦福大学研发的大语言模型评测 AlpacaEval Leaderboard 中，Yi-34B-Chat以94.08%的胜率，超越LLaMA2 Chat 70B、Claude 2、ChatGPT，成为经由Alpaca官方认证的，全球仅次GPT-4英语能力的大语言模型。在加州大学伯克利分校主导的LMSYS ORG排行榜中，Yi-34B-Chat也以1102的Elo评分，晋升最新开源SOTA开源模型之列，性能表现追平GPT-3.5。而且，伯克利LMSYS ORG排行榜采用的是接近用户体感的“聊天机器人竞技场”特殊测评模式，让众多大语言模型在评测平台随机进行比试，通过众筹真实用户来进行线上实时盲测和匿名投票。LMSYS ORG 在12月8日官宣11月份总排行时评价：“Yi-34B-Chat 和 Tulu-2-DPO-70B 在开源界的进击表现已经追平 GPT-3.5”。在中文能力方面，11月底发布的《SuperCLUE中文大模型基准评测报告 2023》中，Yi-34B Chat迅速晋升到“卓越领导者”象限，在“SuperCLUE 大模型对战胜率” 这项关键指标上，Yi-34B-Chat 取得31.82%的胜率，仅次于GPT4-Turbo。来源：微信公众号【DoNews】

华科大研发！这“只”AI“小猴子”有火眼金睛！

多模态大模型是一类可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构，近年来在众多场景中展现了惊人的能力。华中科技大学团队发布的Monkey模型在18个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型如微软的LLAVA、谷歌的PALM-E、阿里的Mplug-owl等。此外，Monkey在文本密集的问答任务中显示出显著的优势，甚至在某些样本上超越了业界公认的领先者——OpenAI的多模态大模型GPT-4V。Monkey的一个显著特点是其出色的“看图说话”能力。在详细描述任务中，Monkey展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。如对下图进行的文本描述中，Monkey正确地将其识别为埃菲尔铁塔的绘画，并提供了构图和配色方案的详细描述。而对左下角的文字，只有Monkey和GPT-4V能将其准确地识别为作者名。Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。来源：微信公众号【华中科技大学】

视频效果不输Pika！华裔“AI女神”联手谷歌打造又一利器

AI视频生成领域又迎来一个重磅工具。日前，AI科学家李飞飞团队与谷歌合作，推出了视频生成模型W.A.L.T（Window Attention Latent Transformer）——一个在共享潜在空间中训练图像和视频生成的、基于Transformer架构的扩散模型。李飞飞是华裔女科学家、世界顶尖的AI专家。从展示的案例来看，W.A. L.T的效果媲美Gen-2比肩Pika，其可以根据自然语言/图片提示生成逼真的2D/3D视频或动画。在视频生成领域，Runway Gen-2、Zero Scope等应用珠玉在前，一大波“后浪”汹涌而至。核心研究人员阿格里姆•古普塔（Agrim Gupta）代表李飞飞团队对W.A.L.T的两个关键决策作了详细介绍：首先，研究者使用因果编码器（causal encoder）在统一的潜在空间内联合压缩图像和视频，从而实现跨模态的训练和生成。其次，为了提高记忆和训练效率，研究者使用了为空间和时空联合生成建模量身定制的窗口注意力机制（window attention），注：该机制基于transformer架构。通过这两个关键决策，团队在已建立的视频（UCF-101和Kinetics-600）和图像（ImageNet）生成基准测试上实现了SOTA，而无需使用无分类器指导。最后，团队还训练了三个模型的级联，用于文本到视频的生成任务，包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型，以每秒8帧的速度，生成512×896分辨率的视频。由于底层技术不同，各产品存在各自的优劣势，比如，基于Transformer的代表Phenaki突破了视频生成时长限制，但效果相对粗糙缺少细节；基于扩散模型的代表Make-AVideo重在提升视频质量，但其视频时长均在4秒以内。来源：微信公众号【科创板日报】