3月4日·GPT-4.5登上LLM竞技场榜首，智商测试94引发网友质疑

AI资讯速递1年前 (2025)更新 FuturX-Editor

826 0 0

3月4日·周二 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

GPT-4.5登上LLM竞技场榜首，智商测试94引发网友质疑

在知名AI排行榜LM Arena中，GPT-4.5意外登顶，拿下多轮对话、编程、数学等多个领域的第一，总分达到1411分。这一表现与此前垫底的成绩形成鲜明对比，引发了网友对大模型竞技场公正性的质疑。然而，实测结果显示，GPT-4.5在理解用户意图方面表现出色，情商爆表，甚至能在没有推理的情况下理解深层意图。与此同时，GPT-4.5的智商测试结果公布，线下测试智商为97，线上门萨测试智商为94，排名第五，低于OpenAI的其他模型。尽管如此，GPT-4.5的高情商和部分领域的优异表现仍让其在大模型竞争中备受关注。不过，其高昂的使用成本和响应速度较慢等问题也受到批评。此外，GPT-4.5的发布被认为是为了应对市场竞争，留住付费用户，防止其在GPT-5发布前转向竞争对手。来源：微信公众号【新智元】

讯飞星火X1单挑DeepSeek-R1，全国产算力实现单机部署，中国AI再下一城

科大讯飞的星火X1模型在最新升级中表现惊艳，70亿参数规模的星火X1在数学能力上全面对标OpenAI的o1和DeepSeek-R1，尤其在中小学数学任务上实现领先。此次升级不仅在性能上取得突破，更通过全国产算力平台实现单机部署，大幅降低了成本，展现了中国AI在自主可控技术上的硬核实力。星火X1在数学推理、教育辅助、医疗诊断等多领域表现出色，其“识图答题”功能和深度推理能力为用户提供了更直观的体验。此外，星火X1还通过与华为合作推出“星火一体机”，为政企提供高效AI底座，并针对医疗、教育、政务等垂直领域推出定制化解决方案。星火X1的成功不仅标志着中国AI在技术上的进步，更在应用落地和普惠性上树立了新标杆，推动AI技术走向更广泛的行业和用户群体。来源：微信公众号【新智元】

DeepSeek R1技术成功迁移到多模态领域，视觉强化微调Visual-RFT全面开源

DeepSeek R1背后的强化学习技术成功拓展到视觉语言大模型（LVLM），推出了视觉强化微调（Visual-RFT）项目。该项目通过为视觉任务（如细分类、目标检测）设计规则奖励，打破了强化微调仅适用于文本和数学推理的认知局限。Visual-RFT仅需10到1000条数据，即可通过强化学习显著提升多模态模型的性能，尤其在少样本学习和泛化能力上优于传统监督微调（SFT）。实验表明，Visual-RFT在开放词汇检测、少样本分类、推理定位等任务上表现优异，广泛覆盖了从通用场景到卡通人物等开放场景数据。该项目已全面开源，包含训练和评测代码，旨在推动多模态模型的进一步发展。来源：微信公众号【机器之心】

字节推出免费AI编程IDE Trae，挑战Cursor地位

字节跳动近日发布了国内首个原生AI IDE（集成开发环境）——Trae，支持通过自然语言描述需求，自动生成并部署代码，甚至无需用户手动编写代码。Trae深度集成了DeepSeek R1和V3等大模型，能够快速生成功能完备的应用，例如网页版游戏。其核心优势在于“AI原生”设计，从底层架构围绕AI能力构建，相比传统IDE中的AI插件，使用更流畅、准确。此外，Trae完全免费，对编程新手极为友好，即使在复杂任务上表现不如Cursor，但其免费策略和低门槛设计已对付费编程工具构成挑战。Trae的推出进一步降低了编程门槛，推动了AI在开发领域的普及。来源：微信公众号【量子位】

Claude公司估值615亿美元再融35亿，AI巨头竞争加剧

Claude背后的公司Anthropic近日宣布完成35亿美元的新一轮融资，投后估值达到615亿美元。本轮融资由光速创投领投，柏尚投资、思科、D1 Capital Partners等参与。至此，Anthropic总筹资金额已达182亿美元。此次融资将用于扩大计算能力、研究AI模型的可解释性和对齐问题，以及加速国际扩张。Anthropic还计划在未来几个月内提升Claude-3.7的编程能力，并开发能够协作处理复杂项目的AI系统。Anthropic的快速增长和巨额融资反映了其在AI领域的强劲竞争力，尤其是在企业服务和与科技巨头的合作方面。与此同时，OpenAI和xAI也在加速融资和技术创新，OpenAI估值有望达到3000亿美元，而xAI估值可能达到750亿美元。AI领域的竞争愈发激烈，各大公司正通过融资和技术创新争夺市场份额。来源：微信公众号【量子位】