12月22日

AI资讯速递1年前 (2023)发布 FuturX-Editor
309 0

12月22日·周五

摸底谷歌Gemini:CMU全面测评,Gemini Pro不敌GPT 3.5 Turbo

前段时间,谷歌发布了对标 OpenAI GPT 模型的竞品 ——Gemini。这个大模型共有三个版本 ——Ultra(能力最强)、Pro 和 Nano。研究团队公布的测试结果显示,Ultra 版本在许多任务中优于 GPT4,而 Pro 版本与 GPT-3.5 不相上下。尽管这些对比结果对大型语言模型研究具有重要意义,但由于确切的评估细节和模型预测尚未公开,这限制了对测试结果的复现、检测,难以进一步分析其隐含的细节。为了了解 Gemini 的真正实力,来自卡内基梅隆大学、BerriAI 的研究者对该模型的语言理解和生成能力进行了深入探索。他们在十个数据集上测试了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 的文本理解和生成能力。具体来说,他们在 MMLU 上测试了模型回答基于知识的问题的能力,在 BigBenchHard 上测试了模型的推理能力,在 GSM8K 等数据集中测试了模型解答数学问题的能力,在 FLORES 等数据集中测试了模型的翻译能力;在 HumanEval 等数据集中测试了模型的代码生成能力;在 WebArena 中测试了模型作为遵循指令的智能体的能力。来源:微信公众号【机器之心】

摩尔线程首个千卡智算中心落地,从算力到生态全面加速大模型发展

12月19日,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办,宣告国内首个以国产全功能GPU为底座的大规模算力集群正式落地。与此同时,摩尔线程联合国内众多合作伙伴发起并成立了“摩尔线程PES – KUAE智算联盟”和“摩尔线程PES – 大模型生态联盟”,共同夯实从智算基础设施到大模型训练与推理的国产大模型一体化生态,持续为我国大模型产业发展加速。摩尔线程大模型智算加速卡MTT S4000,采用第三代MUSA内核,单卡支持48GB显存和768GB/s的显存带宽。基于摩尔线程自研MTLink1.0技术,MTT S4000可以支持多卡互联,助力千亿大模型的分布式计算加速。同时,MTT S4000提供先进的图形渲染能力、视频编解码能力和超高清8K HDR显示能力,助力AI计算、图形渲染、多媒体等综合应用场景的落地。尤为重要的是,借助摩尔线程自研MUSIFY开发工具,MTT S4000计算卡可以充分利用现有CUDA软件生态,实现CUDA代码零成本迁移到MUSA平台。来源:微信公众号【 摩尔线程】

FlagEval 12月榜|新增大模型鲁棒性评测,加入Qwen-72B、DeepSeek-34B等开源模型

北京航空航天大学作为 FlagEval 大模型评测平台的共建单位,构建了大语言模型鲁棒性评测方案并针对当前主流模型进行了初步评测。鲁棒性是指模型在面对不同类型的异常、噪声、干扰、变化或恶意攻击时,能够保持稳定性和高效性的能力。目前的基础模型可以在给定数据输入图片的情况下, 经过其定义的计算 图片,得到模型期望的输出图片,而鲁棒性可以理解为:在给定扰动噪音图片的情况下,模型的输出图片是否等于期望的输出图片 ,量化该差异为图片,图片越小代表该模型鲁棒性能越好。对于大语言模型而言,构建的扰动噪音要求不影响人类对输入图片的理解。因此,团队在构建文本噪音时,会针对生成的测试样例设计图片,并要求图片与原始的图片在人类理解层面上的差异不大,但又容易使模型的输出犯错。FlagEval 平台更新了C-SEM v2.0 数据集评测结果,新增了最新开源的 Qwen-72B / 1.8B、DeepSeek-67B(base)模型评测。其中,Qwen-72B-Chat 模型主观评测结果大幅领先,准确率达 83.6%。来源:微信公众号【智源研究院】

© 版权声明

相关文章

暂无评论

暂无评论...