1月13日·DeepSeek开源Engram模块,用“条件记忆”给大模型装上O(1)知识检索引擎

1月13日·周二  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

DeepSeek开源Engram模块,用“条件记忆”给大模型装上O(1)知识检索引擎

DeepSeek与北大联合发布条件记忆新范式,开源270亿参数Engram模块,与MoE形成“计算-记忆”双稀疏轴。Engram基于哈希N-gram实现O(1)查找,将静态知识重建负担从Transformer浅层剥离,使网络有效深度增加,在等参数量、等FLOPs下全面超越纯MoE基线:MMLU+3.4、BBH+5.0、HumanEval+3.0,长文检索NIAH准确率从84.2提至97.0。系统层面支持主机内存预取与多级缓存,推理零额外开销。论文揭示U型扩展律:20%-25%稀疏预算投入记忆最优。Engram已上线GitHub,DeepSeek V4轮廓愈发清晰。来源:微信公众号【机器之心】

1月13日·DeepSeek开源Engram模块,用“条件记忆”给大模型装上O(1)知识检索引擎

中标榜上的垂类黑马,中关村科金用“行业深潜”拿下23个大模型应用订单

2025年中国大模型中标项目暴增至7539个、金额295亿元,应用类占比58%成绝对主流。中关村科金凭“平台+应用+服务”战略入围应用类TOP10,中标23个项目,位列垂类厂商第一。其为中国船舶打造“百舸”行业大模型,与南方有色共建广西首个冶炼大模型,主操手操作频率降90%、能耗降8%;携手宁夏交建推出“灵筑智工”,专业问答准确率较通用模型提升40%。金融领域位列中标金额第四,已服务500+头部机构,覆盖营销、风控、运营全链路。公司表示2026年将进入ROI硬考核阶段,行业Know-how与私有数据成最大护城河。来源:微信公众号【机器之心

1月13日·DeepSeek开源Engram模块,用“条件记忆”给大模型装上O(1)知识检索引擎

华为SWE-Lego仅用SFT刷爆软工基准,8B模型拿下42%解决率

华为推出代码智能体SWE-Lego,无需RL仅靠监督微调便在SWE-bench Verified获开源SOTA:8B模型42.2%、32B模型52.6%,测试时扩展再提6-7%。核心在于三大创新:混合数据管道——GitHub真实PR与注入Bug的合成数据互补,产出32k任务+18k专家轨迹;改进SFT——步骤级错误掩码+课程学习,增量提升3.8%;测试时扩展——串行先饱和再并行,生成式打分器完胜回归式。系统过滤Git泄露、工具错误等噪声,支持多文件多轮工具调用,已全开源。团队称下一步将扩展到Python外语言及企业级长序列项目。来源:微信公众号【机器之心】

1月13日·DeepSeek开源Engram模块,用“条件记忆”给大模型装上O(1)知识检索引擎

苹果AI终嫁谷歌:Gemini成Apple Intelligence基座,年内新版Siri上线

苹果与谷歌官宣深度合作协议,Gemini将为Apple Intelligence提供底层能力,新版“更个性化Siri”随iOS 26.4春季推送。双方采用端侧+私有云混合部署,苹果年付授权费约10亿美元。此前苹果已测试OpenAI、Anthropic、Perplexity等模型,因成本、整合性及部署灵活性最终选定Gemini。苹果自研AI多次跳票,基础模型团队负责人2025年被Meta挖角,AI高管退休,人才流失倒逼外援策略。马斯克再喊垄断,称谷歌已控Chrome、安卓再加苹果AI。国行版尚未落定,阿里Qwen因股价涨10%成热门猜测。来源:微信公众号【量子位】

1月13日·DeepSeek开源Engram模块,用“条件记忆”给大模型装上O(1)知识检索引擎

Transformer作者团队扔掉RoPE,DroPE零样本把长文能力提高10倍

Transformer八子之一Llion Jones带队开源DroPE,用“预训练暂用RoPE、推理丢弃再校准”实现零样本长上下文扩展,预算力消耗<1%。RoPE高频维度饱和、低频维度迟钝的缺陷被彻底绕过,模型无需长文再训练即可外推。LongBench实验显示,SmolLM平均得分提升10+倍,NIAH召回率74.92%远胜传统RoPE缩放;Llama2-7B仅用0.5%预算重新校准便在长文问答/摘要任务刷新记录。代码已开源,团队同步发布数字红皇后算法,用LLM在《Core War》上演化对抗程序,展现表型趋同、基因型多样的趋同进化现象,为网络安全与药物设计提供新思路。来源:微信公众号【量子位

1月13日·DeepSeek开源Engram模块,用“条件记忆”给大模型装上O(1)知识检索引擎
© 版权声明

相关文章

暂无评论

暂无评论...