8月11日·智谱开源 GLM-4.5V:多模态视觉推理新突破

8月11日·周一  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

智谱开源 GLM-4.5V:多模态视觉推理新突破

智谱发布了基于 GLM-4.5 的开源多模态视觉推理模型 GLM-4.5V,在 42 个公开榜单中 41 项达到 SOTA。该模型拥有 106B 总参数,支持图像、视频、文档理解等多种任务,如看图猜地址、视频转代码等,展现了强大的泛化能力。智谱还推出 z.ai 平台,提供高性价比的多模态 AI 解决方案,API 调用价格低至输入 2 元 /M tokens,响应速度达 60 – 80tokens/s。GLM-4.5V 采用三阶段训练策略,结合视觉编码器、MLP 适配器和语言解码器,支持 64K 多模态长上下文。来源:微信公众号【新智元】

8月11日·智谱开源 GLM-4.5V:多模态视觉推理新突破

百川 M2:医疗增强大模型的全球新标杆

百川智能发布了 32B 参数的医疗增强开源大模型 Baichuan-M2,在 OpenAI 的 HealthBench 评测中超越 gpt-oss-120b 等众多模型,登顶全球开源医疗模型第一。M2 通过端到端强化学习,强化了医疗推理能力,同时保持通用能力。它严格遵循中国医疗指南,适配中国临床场景,展现出对中国人体质和医疗资源的深刻理解。M2 还具备强大的通用能力,在代码生成、数学求解等任务中表现出色,且部署成本低,适配国产芯片。来源:微信公众号【新智元

8月11日·智谱开源 GLM-4.5V:多模态视觉推理新突破

灵巧手 DexHand021 Pro:高自由度与仿生设计的突破

灵巧智能推出了一款高自由度灵巧手 DexHand021 Pro,采用「串并混联的双绳正反向刚柔耦合驱动」设计,实现了 22 个自由度的高灵活性和强大的负载能力。该灵巧手通过创新的绳驱方案,解决了传统刚性直驱的诸多问题,如功率密度低、灵活性差等。DexHand021 Pro 在仅 260×86×50mm 的手掌空间内集成了 12 个空心杯电机,总重仅 2kg,单指负载 >1kg,大拇指负载 >2kg,抓握负载 >5kg,寿命 >50 万次。其目标是面向工业场景,实现工具使用和精密装配等类人操作。来源:微信公众号【机器之心

8月11日·智谱开源 GLM-4.5V:多模态视觉推理新突破

LEGION:AI 图像伪造检测与生成优化的双重利器

上海交通大学、上海人工智能实验室等机构联合提出了 LEGION 框架,旨在检测 AI 图像伪造并反哺生成模型进化。LEGION 构建了首个针对纯 AI 合成图像的高质量数据集 SynthScars,包含伪影掩码、异常解释与伪影类型标签,支持全方位伪造分析。该框架基于多模态大模型,能够同时完成伪造检测、伪影定位和异常解释,且在多种数据集上表现出色。此外,LEGION 还提出了利用检测结果优化生成图像的方法,如全局提示词优化和局部语义修复术,有效提升了生成图像的质量。来源:微信公众号【机器之心

8月11日·智谱开源 GLM-4.5V:多模态视觉推理新突破

英伟达 Jetson Thor:助力中国机器人产业腾飞

英伟达首批 Jetson Thor 芯片已交付给银河通用等中国机器人企业,助力人形机器人和足式机器人研发。Jetson Thor 性能大幅提升,计算能力是上一代的 7.5 倍,每瓦性能提升 3.5 倍,I/O 吞吐量提升 10 倍。银河通用利用该芯片和 NVIDIA 的 Isaac 平台,开发了基于合成数据的具身智能大模型,实现了零售场景中的零样本抓取和复杂导航功能。此外,银河通用还推出了 24 小时无人药房和无人零售店解决方案,推动机器人商业化落地。来源:微信公众号【量子位】

8月11日·智谱开源 GLM-4.5V:多模态视觉推理新突破
© 版权声明

相关文章

暂无评论

暂无评论...