6月6日·谷歌Gemini 2.5 Pro强势升级,多领域霸榜性价比极高

6月6日·周五  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

谷歌Gemini 2.5 Pro强势升级,多领域霸榜性价比极高

谷歌于2025年6月5日发布的Gemini 2.5 Pro在各项基准测试中全面超越旧版本,仅用一个月时间便在数学、编程、推理等多个领域登顶榜单第一,碾压o3、Claude 4等竞争对手。新版模型在Web Arena上Elo评分提升35分,整体Elo提升24分,达到1470分,稳居LMArena榜首。其编程能力尤为突出,在高难度测试中表现卓越,还能通过复杂任务测试,如创建3D DNA模型等。此外,Gemini 2.5 Pro引入「思考预算」功能,最高达32k,改进函数调用,输出价格仅为o3的四分之一,性价比极高。谷歌计划在未来几周内将该模型升级为稳定版本,适合企业级应用。来源:微信公众号【新智元】

6月6日·谷歌Gemini 2.5 Pro强势升级,多领域霸榜性价比极高

智源大会发布“悟界”系列大模型,开启物理AGI新时代

智源大会在北京开幕,汇聚了四位图灵奖得主、全球科技巨头和顶尖学府研究人员。大会重磅推出“悟界”系列大模型,涵盖原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、具身大脑RoboBrain 2.0和全原子微观生命模型OpenComplex2。这些模型从宏观到微观,揭示生命机理,构建人工智能与物理世界的交互基座。现场还展示了机器人精准操作、宇树机器人拳击表演等精彩环节。图灵奖得主Yoshua Bengio和Richard Sutton分别探讨了AI的安全风险和“体验时代”的到来。智源研究院通过开源框架和模型,推动全球AI技术发展,迈向物理AGI的新篇章。来源:微信公众号【新智元】

6月6日·谷歌Gemini 2.5 Pro强势升级,多领域霸榜性价比极高

智源「悟界」系列大模型发布,AI迈向宏观微观双宇宙建模

第七届智源大会在北京开幕,智源研究院重磅发布了全新「悟界」系列大模型。该系列模型标志着AI从理解文字迈向建模世界、操控实体、模拟大脑和解构分子的新阶段。其中,原生多模态世界模型Emu3实现了文本、图像、视频、声音等多种模态的统一建模,支持跨模态交互。脑科学多模态通用基础模型见微Brainμ首次将多种神经信号与文本、图像等模态对齐,有望成为脑科学领域的“AlphaFold”。具身大脑RoboBrain 2.0和跨本体具身大小脑协作框架RoboOS 2.0提升了机器人的任务规划和空间推理能力,推动具身智能的落地。全原子微观生命模型OpenComplex2则实现了生物分子的动态构象分布建模,为生命科学研究提供了新的工具。智源研究院通过开源框架和模型,为AI的未来发展提供了新的方向和思路。来源:微信公众号【机器之心

6月6日·谷歌Gemini 2.5 Pro强势升级,多领域霸榜性价比极高 6月6日·谷歌Gemini 2.5 Pro强势升级,多领域霸榜性价比极高

开源智能体Paper2Poster让学术海报一键生成成为现实

滑铁卢大学、新加坡国立大学和牛津大学的研究者们联合发布了Paper2Poster系统,旨在利用大型语言模型(LLM)将学术论文自动生成为精美的学术海报。该系统通过多模块多智能体方法PosterAgent,将论文解析、版面规划和海报绘制分解为多个协作步骤,有效解决了长文压缩、多模态信息抽取和版面布局等挑战。Paper2Poster不仅提出了首个从论文生成海报的完整框架,还构建了配套的评测基准和指标体系,量化评估生成海报的效果。其开源版本PosterAgent-Qwen在多项指标上超越基于GPT-4o的方案,生成一张海报的成本低至约0.005美元,极大地简化了学术海报的制作流程,为科研人员提供了高效的辅助工具。未来,该系统有望进一步优化视觉美感和创意,甚至实现人机协作完善海报设计。来源:微信公众号【机器之心

6月6日·谷歌Gemini 2.5 Pro强势升级,多领域霸榜性价比极高

ElevenLabs发布Eleven v3,AI语音合成进入情感表达新时代

专注于AI语音合成的独角兽公司ElevenLabs发布了其最新版文本转语音(TTS)模型——Eleven v3。该模型被誉为“迄今为止最具表现力的文本转语音模型”,支持70多种语言(包括中文),并能够实现多人对话,情绪和语气表现生动逼真,几乎达到以假乱真的效果。Eleven v3通过引入音频标签控制情绪,支持情感表达、音效和特殊标签,用户可以通过标点符号进一步优化语音的情感传递。此外,该模型还支持为每个说话者分配不同的语音,实现流畅的多人对话。目前,Eleven v3仍处于内部测试阶段,API即将推出,实时在线版本正在开发中。网友实测显示,该模型在情感控制和多语言支持方面表现出色,尤其是在英语语种上,但中文效果仍有提升空间。来源:微信公众号【量子位】

6月6日·谷歌Gemini 2.5 Pro强势升级,多领域霸榜性价比极高
© 版权声明

相关文章

暂无评论

暂无评论...