8月8日·国产 AI「四大天王」首次合体，单机驾驭 4 万亿参数

539 0 0

8月8日·周五 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

国产 AI「四大天王」首次合体，单机驾驭 4 万亿参数

国产 AI 领域迎来重大突破，DeepSeek、Qwen、Kimi 和 GLM 等「四大天王」首次在单机上实现合体运行。这一成果背后是浪潮信息推出的「元脑 SD200」超节点 AI 服务器，其具备超大显存空间、超高速互联域和超强算力，能够支持 64 路本土 GPU 芯片，全面实现商用。元脑 SD200 采用创新的多主机低延迟内存语义通信架构，通过远端 GPU 虚拟映射技术，将显存统一地址空间扩增 8 倍，单机可提供最大 4TB 统一显存和 64GB 统一内存，为万亿超长序列模型提供充足空间。其在 DeepSeek R1 的全参 PD 分离推理测试中，推理框架实现 64 卡性能 370% 的扩展效率，展现出强大的算力和应用潜力。来源：微信公众号【新智元】

GPT-5 王者降临，免费博士级 AI 全面屠榜

OpenAI 正式发布 GPT-5，标志着 AI 领域的重大升级。GPT-5 不仅在编码、数学、写作、健康和视觉感知等多个领域表现出色，还推出了 GPT-5 Thinking 等多版本，构建了一个通用智能操作系统。GPT-5 的性能在多个跨学科评估中超越了其他主流模型，例如在 SWEBench 编程基准测试中刷新历史最高分，AIME 2025 数学竞赛中接近人类选手表现。此外，GPT-5 强调减少幻觉，提高准确性和可靠性，成为最值得信赖的「健康顾问级」模型。其 API 全家桶也正式上线，为开发者提供了更多选择，推动 AI 编程进入新时代。来源：微信公众号【新智元】

SWE-Swiss 模型开源，32B 参数实现 SOTA 性能

北京大学、字节跳动 Seed 团队及香港大学联合提出了一种名为「SWE-Swiss」的高效训练配方，用于解决软件工程问题的 AI 模型。其 32B 参数模型 SWE-Swiss-32B 在 SWE-bench Verified 基准测试中取得了 60.2% 的准确率，达到新的 SOTA 水平。该研究通过代码定位、代码修复和单元测试生成三项核心技能的显式建模和训练，构建了一个功能强大的问题解决模型。其训练分为多任务监督微调和两阶段强化学习，最终通过增强自我一致性方法在测试时扩展性能。该研究的模型和数据集将全部开源，为社区发展提供支持。来源：微信公众号【机器之心】

自变量机器人在世界机器人大会上展示真・通用具身智能

在 2025 世界机器人大会上，自变量机器人展示了其通用轮式双臂机器人「小量」和仿人形机器人「量子 2 号」。这些机器人基于自变量自研的通用具身大模型 WALL-A，能够自主完成多种复杂任务，如制作香囊、整理家务、物流分拣等。量子 2 号采用轮式通用底盘，配备 62 个自由度的高精度灵巧手，能够进行高精度操作。WALL-A 模型通过端到端的统一框架，实现了从感知输入到机器人控制动作的完整闭环能力，展现了强大的泛化和推理能力。自变量机器人的技术栈涵盖了从算法到硬件的全自研体系，推动了具身智能的商业化落地。来源：微信公众号【机器之心】

CompassVerifier 模型发布，助力 AI 训练与验证并行发展

上海 AI Lab 和澳门大学联合发布了通用答案验证模型 CompassVerifier 和评测集 VerifierBench，填补了验证领域缺乏迭代体系的空白。CompassVerifier 基于 Qwen 系列模型优化，参数规模从 3B 到 32B 不等，能够在多领域实现高精度验证。其通过错误驱动的对抗性增强、复杂公式增强和泛化性增强等方法，提升了验证能力。VerifierBench 包含 2817 个高质量标注样本，覆盖多域、复杂答案类型和无效样本标注。CompassVerifier 在 VerifierBench 上的平均准确率达到 90.8%，F1 分数 87.7%，超越了其他大模型。该模型还可作为强化学习的奖励模型，为大语言模型的迭代优化提供精准反馈。来源：微信公众号【量子位】