7月4日·DeepSeek流量遇冷背后:Token经济学与战略转移的真相
7月4日·周五 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
DeepSeek流量遇冷背后:Token经济学与战略转移的真相
曾以低价高性能震撼市场的DeepSeek,近期在自家平台流量和市场份额上出现下滑。外媒SemiAnalysis指出,这并非技术或性能问题,而是DeepSeek背后的战略转移与Token经济学的权衡所致。DeepSeek R1模型发布后,虽然在第三方平台使用量激增,但自家托管的Token流量份额却逐月下降。原因在于,DeepSeek为了提供低价服务,牺牲了延迟和上下文窗口大小等关键性能指标。例如,其延迟较长,上下文窗口仅为64K,远小于其他服务商。这种策略导致用户体验下降,用户转向其他开源提供商。此外,出口管制也限制了中国AI生态系统在模型服务方面的能力,DeepSeek选择开源模型,将算力资源优先用于内部研发,而非终端用户服务。与此同时,Anthropic也面临类似困境,其在编程领域的成功反而加剧了算力紧张,导致Claude 4模型生成速度下降。不过,Anthropic通过优化Token效率,提升了用户体验。整体来看,AI模型的价值链与分发模式正在悄然变革,服务商的策略选择将直接影响其市场表现。来源:微信公众号【新智元】


昆仑万维发布新一代奖励模型,七项基准测试全获SOTA
昆仑万维宣布推出新一代奖励模型Skywork-Reward-V2系列,该系列包含8个不同参数规模的模型,从6亿到80亿不等。这些模型在七大主流奖励模型评测榜单上全部获得第一,展现了卓越的性能。此次突破得益于昆仑万维构建的4000万对偏好样本数据集Skywork-SynPref-40M,通过人机协同、两阶段迭代的数据甄选流程,最终筛选出2600万条高质量数据,极大地提升了模型的泛化能力和实用性。Skywork-Reward-V2系列不仅在指令遵循、客观正确性、安全性等多维度表现出色,还具备强大的扩展能力。此次开源将进一步推动大语言模型的性能提升和应用拓展。来源:微信公众号【机器之心】

首个针对GUI多模态大模型智能体的可信评测框架MLA-Trust发布
首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架MLA-Trust。该框架由清华大学等机构联合推出,旨在评估多模态大模型智能体在真实应用场景中的可信度。研究团队构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,并设计了34项高风险交互任务,对13个最先进的多模态大语言模型智能体进行了深度评估。结果显示,即使是经过多重安全加固的商用模型智能体,在复杂GUI交互场景中仍存在显著的安全隐患。MLA-Trust框架的发布为多模态大模型智能体的安全性与可靠性评估提供了重要工具,也为未来相关技术的发展和应用奠定了基础。来源:微信公众号【机器之心】

LeCun团队研究发现:LLM语义压缩牺牲细节,偏向极致统计压缩
图灵奖得主LeCun团队近日提出了一种信息论框架,揭示了大型语言模型(LLM)在语义压缩上的本质。研究发现,LLM倾向于通过极致的统计压缩来减少冗余信息,但在此过程中牺牲了细节和语境的保真度。与人类相比,LLM在处理细粒度语义差异时表现不佳,其内部概念结构与人类对类别归属的直觉不相符。该研究基于1049个项目、34个语义类别的基准数据集,对30多个LLM模型进行了评估,结果显示LLM与人类在语义表征策略上存在显著差异。这项研究由斯坦福大学与纽约大学联合开展,LeCun为研究的主要作者之一。来源:微信公众号【量子位】
