6月12日·豆包1.6多模态大模型展现强大高考解题能力
6月12日·周四 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
豆包1.6多模态大模型展现强大高考解题能力
字节跳动在火山引擎原动力大会上发布的豆包大模型1.6引发关注。作为国内首款多模态SOTA模型,豆包1.6支持256k上下文长度,具备深度思考和多模态理解能力。在模拟高考测试中,该模型理科取得706分、文科712分的优异成绩,尤其在数理化带图大题的解答上表现出色。其不仅能精准识别图像信息,还能通过逻辑推理完成复杂题目的解答。此外,豆包1.6还具备视频理解、GUI操作等能力,展现了强大的多模态应用潜力。火山引擎凭借该模型在AI云市场加速布局,推动多模态技术在教育、金融、消费电子等领域的广泛应用。来源:微信公众号【新智元】

LeCun重磅发布V-JEPA 2,世界模型迎来新突破
Meta首席科学家LeCun亲自出镜,介绍了V-JEPA 2的最新进展,回应了外界对他的质疑。V-JEPA 2是首个基于视频训练的世界模型,具备先进的视频理解与预测能力,并首次实现了零样本规划和机器人在新环境中的自主控制。该模型基于Meta的联合嵌入预测架构(JEPA)构建,拥有12亿参数,通过两阶段训练,从无动作预训练到动作条件训练,最终让机器人能够根据具体行动进行预测和规划。此外,Meta还发布了三个全新基准测试集,用于评估模型对物理世界的理解和推理能力。V-JEPA 2的发布标志着世界模型研究取得了重要进展,为实现高级机器智能(AMI)奠定了基础。来源:微信公众号【新智元】

WebDancer:开启自主智能Deep Research的新时代
阿里巴巴通义实验室近日发布了WebDancer,这是一个面向自主智能Deep Research的创新成果。WebDancer通过解决高质量训练数据稀缺和开放环境训练复杂两大难题,为自主信息检索智能体的构建开辟了新路径。它采用创新的数据合成策略,生成了CRAWLQA和E2HQA两大高质量数据集,并结合ReAct框架和多阶段数据过滤策略,确保数据的多样性和高质量。在训练方法上,WebDancer采用监督微调(SFT)和强化学习(RL)两阶段策略,显著提升了智能体的泛化能力和适应性。实验结果表明,WebDancer在GAIA和WebWalkerQA等复杂信息检索基准测试中表现卓越,超越了GPT-4o等基线模型。未来,WebDancer将集成更多工具,拓展到开放域长文本写作任务,并参与更多基准测试,进一步验证其泛化能力。WebDancer的成功为自主智能体的开源和研究提供了重要参考。来源:微信公众号【机器之心】

银河通用与清华大学发布开源人形机器人全身遥操系统OpenWBT
银河通用机器人与清华大学联合发布了业内首款开源人形机器人全身遥操系统OpenWBT。该系统支持多机型和跨虚实操作,能够在小时内完成部署。OpenWBT通过全身运动控制,让机器人能够像人类一样完成弯腰、拾物、擦拭等复杂动作,极大地扩展了机器人的作业空间。系统具备三大技术亮点:极简部署、多机型跨平台操作以及灵活兼顾虚实遥操。其背后的核心技术是“真实世界就绪技能空间”,通过分层式框架和生成式建模,解决了仿真到真实世界的迁移难题。OpenWBT已在GitHub和Gitee上线,未来将支持更多机器人类型和复杂技能,欢迎全球开发者参与优化和测试,共同推动人形机器人技术的发展。来源:微信公众号【机器之心】

华为开源昇思MindSpore,助力大模型开发与部署
华为开源的昇思MindSpore为大模型开发提供了一站式解决方案,极大地简化了模型迁移和推理部署的流程。MindSpore通过其“训练Day0迁移”功能,能够在极少代码改动的情况下实现主流大模型的快速迁移,同时保持精度和性能。其推理部署功能则通过vLLM-MindSpore插件,支持HuggingFace模型的快速上线,甚至在千亿参数大模型上也能实现高效的推理流程。此外,MindSpore还具备动态图多级流水、JIT编译、自动策略寻优等技术优势,显著提升了训练和推理的效率。昇思MindSpore的开源为开发者提供了一个高效、灵活且易于使用的框架,有望成为大模型开发的“万能钥匙”。来源:微信公众号【量子位】
