3月4日·GPT-4.5登上LLM竞技场榜首,智商测试94引发网友质疑

3月4日·周二  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

GPT-4.5登上LLM竞技场榜首,智商测试94引发网友质疑

在知名AI排行榜LM Arena中,GPT-4.5意外登顶,拿下多轮对话、编程、数学等多个领域的第一,总分达到1411分。这一表现与此前垫底的成绩形成鲜明对比,引发了网友对大模型竞技场公正性的质疑。然而,实测结果显示,GPT-4.5在理解用户意图方面表现出色,情商爆表,甚至能在没有推理的情况下理解深层意图。与此同时,GPT-4.5的智商测试结果公布,线下测试智商为97,线上门萨测试智商为94,排名第五,低于OpenAI的其他模型。尽管如此,GPT-4.5的高情商和部分领域的优异表现仍让其在大模型竞争中备受关注。不过,其高昂的使用成本和响应速度较慢等问题也受到批评。此外,GPT-4.5的发布被认为是为了应对市场竞争,留住付费用户,防止其在GPT-5发布前转向竞争对手。来源:微信公众号【新智元】

3月4日·GPT-4.5登上LLM竞技场榜首,智商测试94引发网友质疑

讯飞星火X1单挑DeepSeek-R1,全国产算力实现单机部署,中国AI再下一城

科大讯飞的星火X1模型在最新升级中表现惊艳,70亿参数规模的星火X1在数学能力上全面对标OpenAI的o1和DeepSeek-R1,尤其在中小学数学任务上实现领先。此次升级不仅在性能上取得突破,更通过全国产算力平台实现单机部署,大幅降低了成本,展现了中国AI在自主可控技术上的硬核实力。星火X1在数学推理、教育辅助、医疗诊断等多领域表现出色,其“识图答题”功能和深度推理能力为用户提供了更直观的体验。此外,星火X1还通过与华为合作推出“星火一体机”,为政企提供高效AI底座,并针对医疗、教育、政务等垂直领域推出定制化解决方案。星火X1的成功不仅标志着中国AI在技术上的进步,更在应用落地和普惠性上树立了新标杆,推动AI技术走向更广泛的行业和用户群体。来源:微信公众号【新智元

3月4日·GPT-4.5登上LLM竞技场榜首,智商测试94引发网友质疑

DeepSeek R1技术成功迁移到多模态领域,视觉强化微调Visual-RFT全面开源

DeepSeek R1背后的强化学习技术成功拓展到视觉语言大模型(LVLM),推出了视觉强化微调(Visual-RFT)项目。该项目通过为视觉任务(如细分类、目标检测)设计规则奖励,打破了强化微调仅适用于文本和数学推理的认知局限。Visual-RFT仅需10到1000条数据,即可通过强化学习显著提升多模态模型的性能,尤其在少样本学习和泛化能力上优于传统监督微调(SFT)。实验表明,Visual-RFT在开放词汇检测、少样本分类、推理定位等任务上表现优异,广泛覆盖了从通用场景到卡通人物等开放场景数据。该项目已全面开源,包含训练和评测代码,旨在推动多模态模型的进一步发展。来源:微信公众号【机器之心

3月4日·GPT-4.5登上LLM竞技场榜首,智商测试94引发网友质疑

字节推出免费AI编程IDE Trae,挑战Cursor地位

字节跳动近日发布了国内首个原生AI IDE(集成开发环境)——Trae,支持通过自然语言描述需求,自动生成并部署代码,甚至无需用户手动编写代码。Trae深度集成了DeepSeek R1和V3等大模型,能够快速生成功能完备的应用,例如网页版游戏。其核心优势在于“AI原生”设计,从底层架构围绕AI能力构建,相比传统IDE中的AI插件,使用更流畅、准确。此外,Trae完全免费,对编程新手极为友好,即使在复杂任务上表现不如Cursor,但其免费策略和低门槛设计已对付费编程工具构成挑战。Trae的推出进一步降低了编程门槛,推动了AI在开发领域的普及。来源:微信公众号【量子位

3月4日·GPT-4.5登上LLM竞技场榜首,智商测试94引发网友质疑

Claude公司估值615亿美元再融35亿,AI巨头竞争加剧

Claude背后的公司Anthropic近日宣布完成35亿美元的新一轮融资,投后估值达到615亿美元。本轮融资由光速创投领投,柏尚投资、思科、D1 Capital Partners等参与。至此,Anthropic总筹资金额已达182亿美元。此次融资将用于扩大计算能力、研究AI模型的可解释性和对齐问题,以及加速国际扩张。Anthropic还计划在未来几个月内提升Claude-3.7的编程能力,并开发能够协作处理复杂项目的AI系统。Anthropic的快速增长和巨额融资反映了其在AI领域的强劲竞争力,尤其是在企业服务和与科技巨头的合作方面。与此同时,OpenAI和xAI也在加速融资和技术创新,OpenAI估值有望达到3000亿美元,而xAI估值可能达到750亿美元。AI领域的竞争愈发激烈,各大公司正通过融资和技术创新争夺市场份额。来源:微信公众号【量子位

3月4日·GPT-4.5登上LLM竞技场榜首,智商测试94引发网友质疑
© 版权声明

相关文章

暂无评论

暂无评论...