5月7日·谷歌 Gemini 2.5 Pro 登顶三冠王!AI 编程能力全面碾压 Claude 3.7

5月7日·周三  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

谷歌 Gemini 2.5 Pro 登顶三冠王!AI 编程能力全面碾压 Claude 3.7

谷歌发布了全新升级的 Gemini 2.5 Pro Preview(I/O 版),一举拿下 LMeana 基准测试的文本、视觉和编码三项冠军,成为首个横扫三大基准的 SOTA 模型。Gemini 2.5 Pro 在编程能力上全面超越了 Claude 3.7 和 GPT-4.1,展现出强大的代码转换、编辑和智能体工作流开发能力。其不仅能将草图转化为绘画小程序,还能通过自然语言生成代码和交互式 Web 应用。谷歌首席科学家 Jeff Dean 对其性能表示高度信心,开发者已可通过 Google AI Studio 和 Vertex AI 使用该模型进行开发。此次更新不仅提升了编程能力,还在视频理解和多模态应用方面表现出色,引发了开发者社区的广泛关注。来源:微信公众号【新智元

5月7日·谷歌 Gemini 2.5 Pro 登顶三冠王!AI 编程能力全面碾压 Claude 3.7

浙大哈佛团队提出 ICEdit,仅用 LoRA 实现 GPT-4o 级图像编辑

浙江大学和哈佛大学的研究团队提出了一种名为 ICEdit 的新型图像编辑方法,仅用 0.1% 的训练数据和 1% 的训练参数量,实现了高质量的图像编辑效果,媲美甚至在某些方面超越了商业大模型如 GPT-4o 和 Gemini。ICEdit 基于 Diffusion Transformer(DiT)多模态大模型,通过上下文提示词和混合专家 LoRA 微调,大幅提升了编辑成功率和质量。该方法不仅在人物 ID 保持、非编辑区域保持以及指令遵循能力上表现出色,还通过早筛推理时拓展策略(Early filter inference time scaling)进一步优化了编辑效果。ICEdit 的开源性和低成本使其在 Hugging Face 上迅速走红,登上趋势榜前五。来源:微信公众号【新智元

5月7日·谷歌 Gemini 2.5 Pro 登顶三冠王!AI 编程能力全面碾压 Claude 3.7

北大、清华等联合发布大模型逻辑推理能力最新综述

来自北京大学、清华大学、阿姆斯特丹大学(UvA)、卡内基梅隆大学(CMU)和 MBZUAI 的研究人员联合发布了大语言模型逻辑推理能力的最新综述《Empowering LLMs with Logical Reasoning: A Comprehensive Survey》。该综述聚焦于大模型在逻辑问答和逻辑一致性两个关键科学问题上的研究进展,系统梳理了现有方法并建立了分类体系。研究指出,尽管大语言模型在自然语言任务中表现出色,但在逻辑推理能力上仍存在显著缺陷,尤其是在复杂逻辑问题和逻辑一致性方面。综述探讨了基于外部求解器、提示工程、预训练和微调等技术路线,并总结了常用基准数据集和评估指标,提出了未来研究方向,如扩展至模态逻辑和开发满足多种逻辑一致性的高效算法。该论文已被 IJCAI 2025 接收,作者团队还将在会议上进行 Tutorial 演讲。来源:微信公众号【机器之心

5月7日·谷歌 Gemini 2.5 Pro 登顶三冠王!AI 编程能力全面碾压 Claude 3.7

清华、星动纪元开源首个 AIGC 机器人大模型 VPP,入选 ICML 2025 Spotlight

清华大学叉院 ISRLab 和星动纪元联合开源了首个 AIGC 生成式机器人大模型 VPP(Video Prediction Policy)。VPP 利用预训练视频生成大模型,通过学习人类动作,极大减轻了对高质量机器人真机数据的依赖,并可在不同人形机器人本体之间自如切换,加速了人形机器人的商业化落地。该模型入选了 ICML 2025 Spotlight,展现了其在机器人策略泛化性和实时预测能力上的突破。VPP 通过两阶段学习框架实现基于文本指令的视频动作生成,具备高频预测与执行、跨本体学习和强大的多任务泛化能力,已在真实世界中完成多种复杂灵巧操作任务。VPP 的开源代码和详细部署说明已发布,为开发者提供了强大的工具。来源:微信公众号【机器之心

5月7日·谷歌 Gemini 2.5 Pro 登顶三冠王!AI 编程能力全面碾压 Claude 3.7

Cognition AI 开源强化学习模型 Kevin-32B,高效生成 CUDA 内核

知名 AI 创业公司 Cognition AI 开源了一款名为 Kevin-32B 的大模型,专门用于编写高效的 CUDA 内核。Kevin-32B 基于 QwQ-32B,在 KernelBench 数据集上通过多轮强化学习训练,显著提升了代码生成的效率和性能。该模型通过迭代反馈循环,结合多轮训练方法,解决了传统单轮训练的局限性,实现了更高的正确率和加速比。Kevin-32B 在多个任务上的表现优于现有前沿模型,尤其是在复杂任务上展现了更强的优化能力。此外,该模型还通过奖励塑造和测试时搜索等技术进一步提升了性能。Cognition AI 的这一成果为高效生成 CUDA 内核提供了新的解决方案,有望推动 AI 在高性能计算领域的应用。来源:微信公众号【量子位】

5月7日·谷歌 Gemini 2.5 Pro 登顶三冠王!AI 编程能力全面碾压 Claude 3.7
© 版权声明

相关文章

暂无评论

暂无评论...