2月24日·DeepSeek开源FlashMLA,大幅提升H800算力与训练效率

2月24日·周一  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

DeepSeek开源FlashMLA,大幅提升H800算力与训练效率

DeepSeek在开源周首日推出FlashMLA,专为英伟达Hopper GPU设计的高效MLA解码内核。FlashMLA针对变长序列优化,在H800 SXM5平台上,内存受限配置下可达3000GB/s,计算受限配置下峰值580 TFLOPS。其支持BF16精度,采用块大小为64的分页KV缓存。FlashMLA参考了FlashAttention与CUTLASS技术,显著降低推理内存占用,助力AGI进程加速。DeepSeek的低成本训练关键在于MoE(混合专家模型)与MLA(多头潜注意力),MLA可减少93.3%的KV缓存量,降低硬件资源需求。此外,DeepSeek V3采用多Token预测技术,提升训练性能,并通过门控网络高效分配Token至专家模型,优化训练效率与推理成本。来源:微信公众号【新智元】

2月24日·DeepSeek开源FlashMLA,大幅提升H800算力与训练效率

南大钱超团队攻克百亿晶体管布局难题,斩获EDA顶会2025最佳论文奖

南京大学人工智能学院钱超教授团队在电子设计自动化(EDA)领域取得重大突破,其论文《Timing-Driven Global Placement by Efficient Critical Path Extraction》荣获2025年欧洲设计自动化与测试会议(DATE)最佳论文奖。该研究攻克了百亿量级晶体管芯片布局优化难题,提出了一种全新的时序驱动布局方法,通过智能关键路径提取技术,将时序分析速度提升6倍,并在时序指标TNS和WNS上分别提升50%和30%。论文第一作者侍昀琦、第四作者林熙和第五作者薛轲均为南大AI学院本硕博生,研究与华为诺亚方舟实验室合作完成。这一成果不仅为芯片设计提供了高效精准的布局方案,也为AI技术在芯片设计中的应用开辟了新路径。来源:微信公众号【新智元

2月24日·DeepSeek开源FlashMLA,大幅提升H800算力与训练效率

月之暗面开源新版Muon优化器,训练效率提升2倍

月之暗面科技有限公司开源了改进版的Muon优化器,该优化器在大规模语言模型训练中表现出色,计算效率较AdamW优化器提升2倍。团队通过添加权重衰减和一致的RMS更新技术,解决了Muon在扩展到更大模型时的性能瓶颈,使其无需调整超参数即可直接应用于大规模训练。基于这些改进,月之暗面推出了3B/16B参数的Mixture-of-Expert(MoE)模型Moonlight,该模型在相同的训练预算下,性能全面领先现有模型。实验表明,Muon仅需52%的训练FLOPs即可达到与AdamW相当的性能,显著降低了训练成本。此外,团队还开源了相关代码和预训练模型,为后续研究提供支持。来源:微信公众号【机器之心】

2月24日·DeepSeek开源FlashMLA,大幅提升H800算力与训练效率

国产AI视频生成神器PixVerse V4,5秒生成高质量视频

国产AI视频生成技术再次惊艳全球!爱诗科技推出的PixVerse V4成为全球最快的AI视频生成工具,仅需5秒即可生成高质量视频,并首次实现视频与音效同步生成。用户只需输入文字描述或上传图片,即可生成符合要求的视频,甚至能匹配人物口型和背景音效。此外,PixVerse V4还支持“重绘”功能,可将视频风格一键转换为梵高风、赛博朋克风等10种风格,同时保持内容和声音不变。该工具操作简单,普通用户可免费体验,付费用户则有更多权益。PixVerse V4的发布,不仅展现了国产AI在视频生成领域的强大实力,也为创作者提供了高效、低成本的视频制作新选择。来源:微信公众号【量子位

2月24日·DeepSeek开源FlashMLA,大幅提升H800算力与训练效率

清华与光轮联合提出PUGS框架,零样本重建物体物理属性

清华大学、光轮智能及同济大学联合提出了一种名为PUGS(Zero-shot Physical Understanding with Gaussian Splatting)的零样本物理属性重建方法,旨在让机器人通过多视角图像理解物体的物理属性,如密度、硬度等。该方法无需训练,通过3D高斯溅射结合视觉语言模型(VLM)和区域感知特征,实现了物体的高精度重建和物理属性的密集预测。与现有方法相比,PUGS避免了物理属性预测的碎片化问题,显著提升了预测的准确性和合理性。实验表明,PUGS在物体抓取等机器人任务中表现出色,为机器人在复杂环境中的操作提供了更可靠的物理理解。该成果已被ICRA 2025接收。来源:微信公众号【量子位

2月24日·DeepSeek开源FlashMLA,大幅提升H800算力与训练效率
© 版权声明

相关文章

暂无评论

暂无评论...