4月25日·百度文心 4.5 Turbo 和 X1 Turbo 发布,性价比超高,性能惊艳

4月25日·周五  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

百度文心 4.5 Turbo 和 X1 Turbo 发布,性价比超高,性能惊艳

百度正式发布文心大模型 4.5 Turbo 和文心大模型 X1 Turbo。这两款模型在多模态、强推理和低成本方面表现出色。文心大模型 X1 Turbo 在推理性能上有了显著提升,具备更先进的思维链,问答、创作、逻辑推理和多模态能力均大幅提升。文心大模型 4.5 Turbo 则在图片和视频的视觉理解上表现出色,去幻觉、逻辑推理和代码能力也有明显增强。在价格方面,X1 Turbo 的输入价格仅为 DeepSeek-R1 的 25%,而 4.5 Turbo 的输入价格仅为 DeepSeek-V3 的 40%。实测结果显示,两款模型在推理、创作、数学解题和工具调用等方面表现出色,展现了强大的多模态理解和生成能力。来源:微信公众号【新智元】

4月25日·百度文心 4.5 Turbo 和 X1 Turbo 发布,性价比超高,性能惊艳

英伟达 AI 奥赛夺冠,1.5B 模型碾压 DeepSeek-R1,代码全开源

AI 数学奥赛(AIMO-2)中,英伟达团队凭借其OpenMath-Nemotron 系列模型夺冠,并开源了相关代码。该系列模型在数学基准测试中表现出色,尤其是1.5B 参数的 OpenMath-Nemotron 模型,成功击败了 14B 参数的 DeepSeek-R1 蒸馏模型。英伟达团队的成功依赖于三个关键因素:高质量的数据集(包含 540K 独特数学问题及其 3.2M 解决方案)、工具集成推理(TIR)技术和生成式解决方案选择(GenSelect)模式。这些技术使得模型在解决复杂数学问题时表现优异,推理过程更加高效。此外,英伟达还利用了 TensorRT-LLM 等优化技术,显著提升了模型的推理速度。此次夺冠不仅展示了英伟达在 AI 领域的强大实力,也为其开源模型赢得了广泛赞誉,包括数学家陶哲轩的点赞。来源:微信公众号【新智元】

4月25日·百度文心 4.5 Turbo 和 X1 Turbo 发布,性价比超高,性能惊艳

北航开源 TinyLLaVA-Video-R1,小模型在视频问答中复现“灵光一现”时刻

北京航空航天大学研究团队推出了小尺寸视频推理模型TinyLLaVA-Video-R1,并全开源了模型权重、代码及训练数据。该模型仅 3.6B 参数,却在多个视频问答基准测试中超越了 7B+ 的模型。研究团队通过引入少量人工标注的高质量冷启动数据、长度奖励与答案错误惩罚机制,以及在优势计算中引入微小噪声,成功提升了模型的推理能力和训练效率。TinyLLaVA-Video-R1 不仅在性能上表现出色,还能在训练过程中展现自我反思与回溯行为,复现了“灵光一现”(Aha Moment)现象。该研究为资源有限的研究者提供了在小尺寸模型上探索多模态推理的新平台。来源:微信公众号【机器之心】

4月25日·百度文心 4.5 Turbo 和 X1 Turbo 发布,性价比超高,性能惊艳

清华新研究:强化学习未能突破大模型推理能力的基座限制

清华大学 LeapLab 团队联合上海交通大学的研究人员通过实证研究发现,当前的强化学习方法(RLVR)并未能突破大语言模型(LLM)基座的能力上限。尽管 RLVR 在某些任务中提升了采样效率,但其输出的正确答案早已存在于基座模型中。研究团队通过引入pass@k指标(即模型在 k 次采样中至少生成一次正确答案)来评估模型的能力边界,发现基座模型在多次采样后能够解决更多问题,而 RLVR 模型则在采样次数增加时表现逐渐稳定甚至下降。这一发现表明,RLVR 并未赋予模型新的推理能力,而是通过调整概率分布来优化现有路径。研究还指出,不同的 RLVR 算法在提升采样效率方面表现相似,且均未达到最优性能。来源:微信公众号【机器之心】

4月25日·百度文心 4.5 Turbo 和 X1 Turbo 发布,性价比超高,性能惊艳

南洋理工等发布首个大模型全链路安全综述,涵盖从数据到部署的全景图

南洋理工大学、新加坡国立大学等全球 40 余所顶尖机构的 67 位学者联合发布了大模型全链路安全综述,系统梳理了从数据准备到商业化应用的全栈安全问题。该综述综合分析了 843 篇文章,涵盖了数据安全、预训练安全、后训练安全、模型遗忘安全、部署安全以及应用安全等各个阶段。研究指出,大模型在预训练阶段面临数据中毒和隐私泄露风险,在微调阶段面临指令注入和分布式后门攻击,在对齐阶段面临人类反馈污染和奖励模型操控等问题。针对这些风险,研究提出了数据净化、隐私加固、指令可信验证、对抗训练等多种防御策略。此外,该综述还探讨了模型遗忘中的安全问题以及部署阶段的攻击面和防御机制,为构建安全、可信的人工智能生态提供了全面的参考框架。来源:微信公众号【量子位】

4月25日·百度文心 4.5 Turbo 和 X1 Turbo 发布,性价比超高,性能惊艳
© 版权声明

相关文章

暂无评论

暂无评论...