4月9日·英伟达开源253B参数推理模型,性能直逼行业天花板

4月9日·周三  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

英伟达开源253B参数推理模型,性能直逼行业天花板

英伟达宣布开源Llama Nemotron-253B推理模型,该模型基于Llama-3.1-405B微调而来,参数量达2530亿。在复杂数学推理AIME、科学推理GPQA Diamond、编码LiveCodeBench等基准测试中,其准确率登顶,甚至以一半参数媲美DeepSeek R1,吞吐量更是提升4倍。该模型通过采用测试时Scaling技术,在推理阶段投入更多计算资源,提升响应质量。此外,它还能通过系统提示词控制推理开关,灵活切换推理模式。该模型已准备好支持商用,为推理领域带来新的突破。来源:微信公众号【新智元】

4月9日·英伟达开源253B参数推理模型,性能直逼行业天花板

UC伯克利开源14B代码推理模型,性能比肩OpenAI o3-mini

UC伯克利与Together AI联合推出了一款开源的代码推理模型——DeepCoder-14B-Preview。该模型仅14B参数,却能在LiveCodeBench基准测试中达到60.6%的单次通过率,媲美OpenAI的o3-mini。DeepCoder-14B-Preview基于24K个可验证的编程问题训练而成,采用了分布式强化学习,并通过迭代式上下文扩展技术,使其在长上下文推理中表现优异。此外,团队还开源了verl-pipe系统优化工具,将训练速度提升2倍。这一开源模型的推出,为代码生成和推理领域带来了新的突破,也为开发者提供了免费且强大的工具。来源:微信公众号【新智元

4月9日·英伟达开源253B参数推理模型,性能直逼行业天花板

alphaXiv推出Deep Research,助力秒搜arXiv提升研究效率

alphaXiv平台推出新功能「Deep Research for arXiv」,可显著提升研究人员在arXiv平台的文献检索效率。用户输入相关问题,如「self-supervised learning文献综述」或「RL fine-tuning for LLMs的最新突破」,系统能在几秒内生成完整回答并提供arXiv链接,将原本数小时的搜索过程大幅缩短。此前,alphaXiv还推出过为arXiv论文生成博客风格概述的功能。该平台由斯坦福大学学生创立,专注于arXiv论文讨论,避免了其他平台信息过载的问题,同时提供逐行讨论、社区互动、浏览器扩展、ORCID集成、私密笔记等工具,增强用户体验。来源:微信公众号【机器之心

4月9日·英伟达开源253B参数推理模型,性能直逼行业天花板

清华团队推出VideoScene:一键式视频扩散模型助力视频到3D重建

清华大学研究团队在CVPR 2025上展示了VideoScene,一款“一步式”视频扩散模型,专注于3D场景视频生成。该模型通过3D-aware leap flow distillation策略,跳过冗余降噪步骤,结合动态降噪策略,显著提升了生成效率和质量。VideoScene解决了传统方法在稀疏视角重建3D场景时的低效和质量问题,能够在单步中生成高质量的3D场景视频。实验表明,其生成速度和质量均优于现有模型,有望在VR/AR、自动驾驶等领域发挥重要作用。论文和代码已公开。来源:微信公众号【机器之心

4月9日·英伟达开源253B参数推理模型,性能直逼行业天花板

李飞飞团队提出世界模型基准,3D/4D/视频模型迎来统一评测

Kaggle前首席科学家、现任answer.ai与fast.ai创始人Jeremy Howard在一次争论中声称自己创造了第一个大语言模型(LLM),引发了AI学术圈的广泛关注和考古行动。他提到的项目是2018年初发表的ULMFiT论文,该论文提出了非监督预训练-微调范式,并在当时达到自然语言处理(NLP)领域的SOTA水平。ULMFiT被认为是现代大语言模型的“最后的共同祖先”,GPT-1的主要作者Alec Radford也曾承认ULMFiT是其灵感来源之一。尽管ULMFiT在微调的便捷性和任务适应性上与GPT-1存在一定差距,但它在自监督训练和通用性方面已经具备了大语言模型的核心特征。这一说法引发了关于大语言模型起源的深入讨论,许多人认为ULMFiT是NLP领域的一个重要转折点。来源:微信公众号【量子位

4月9日·英伟达开源253B参数推理模型,性能直逼行业天花板
© 版权声明

相关文章

暂无评论

暂无评论...