7月16日·大模型在简单数学问题上的集体失误

7月16日·周二 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

大模型在简单数学问题上的集体失误

近期,一些主流大模型在回答“9.11和9.9哪个大”这一简单问题时出现了集体失误,如GPT-4o、谷歌Gemini Advanced付费版等,错误地认为9.11大于9.9。这一现象引起了业界的广泛关注。首个全职提示词工程师Riley Goodside发现此问题,并尝试通过不同的提问方式来测试AI的反应。结果显示,当问题中的选项顺序改变时,AI能够正确回答。分析认为,这可能与AI的注意力机制和token分配有关,当明确指出是双精度浮点数时,AI能够正确理解并给出正确答案。这一事件也引发了对大模型提示技巧的讨论,以及对AI在常识问题上的理解能力的反思。来源:微信公众号【新智元】

7月16日·大模型在简单数学问题上的集体失误

数学界重大突破:黎曼猜想研究取得新纪录

MIT数学教授Larry Guth和牛津大学菲尔兹奖得主James Maynard在黎曼猜想研究上取得了历史性突破,打破了80多年的研究纪录。黎曼猜想作为数学界七大千禧年难题之一,其证明将深刻影响素数分布的理解。Guth和Maynard通过巧妙的数学转换和策略,对可能的例外情况提出了更严格的限制,为解析数论领域带来了新的见解。这一成果不仅获得了数学界的高度评价,也吸引了包括陶哲轩在内的多位顶尖数学家的赞赏和关注。来源:微信公众号【新智元】

7月16日·大模型在简单数学问题上的集体失误

Spectral Compute推出SCALE:在AMD GPU上原生运行CUDA程序

英国初创公司Spectral Compute开发的SCALE工具,为AMD显卡用户提供了直接运行原版CUDA程序的能力,无需任何修改或转换。这一工具包允许开发者利用AMD GPU执行原本为英伟达CUDA设计的程序,通过兼容nvcc编译器、CUDA运行时和驱动API的AMD实现,以及ROCm库,简化了跨平台开发流程。SCALE支持包括nvcc和内联PTX在内的CUDA专属语言,并已在多个程序上成功测试运行。尽管存在一些CUDA API和功能的不支持问题,SCALE的推出仍被视为对英伟达CUDA生态的潜在挑战,引发了技术社区的广泛关注和讨论。来源:微信公众号【量子位】

7月16日·大模型在简单数学问题上的集体失误

Claude 3.5编码系统提示V2版发布,引发码农热议

Reddit社区上,一位名为ssmith12345uk的用户分享了Claude Sonnet 3.5的编码系统提示,这一提示融合了Anthropic的元提示思路,有效解决了之前的问题。随后,原作者发布了第二版提示词,加入了详细的使用说明和解释。这个系统提示通过四个步骤——代码审查、规划、输出、安全审查——引导模型完成CoT推理,被社区开发者广泛转发和收藏。尽管有声音认为这一提示过于复杂,但已有网友将其融入工作流,并表示对模型性能有显著提升。同时,也有研究指出,对于新型大模型,传统的“角色提示”可能不再有效。来源:微信公众号【量子位】

7月16日·大模型在简单数学问题上的集体失误

使用消费级硬件搭建异构集群运行大型AI模型

项目作者@evilsocket开发了一种「异构集群推理方案」,允许用户将iPhone、iPad、Macbook等消费级设备组合,运行大型AI模型如Llama3。该方案支持Windows、Linux、iOS系统,并即将支持Android。通过Rust框架Cake,可将transformer模块分散至各设备,减少数据传输延迟,实现分布式推理。所有相关代码已开源至GitHub。尽管有用户担心能耗问题,但该方案为消费级硬件在AI领域的应用提供了新思路。来源:微信公众号【量子位】

【今日案例】

中风科普:原因与征兆

https://kimi.moonshot.cn/share/cqb7jisascdm4tmqn220

© 版权声明

相关文章

暂无评论

暂无评论...