1月22日·豆包1.5大模型发布,多模态能力全面升级
1月22日·周三 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在[图片]这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的o g zAI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
豆包1.5大模型发布,多模态能力全面升级
字节跳动发布了豆包大模型1.5版本,其多模态能力显著提升,在多个基准测试中表现优异。此次升级涵盖了视觉理解、语音对话和深度思考等多个领域。豆包1.5在视觉理解方面实现了对不同分辨率图片的精准识别,并能生成生动的描述和分类。语音多模态则通过Speech2Speech框架,实现了端到端的语音对话,支持多种情绪表达。此外,豆包还独立开发了深度思考模型,采用强化学习提升推理能力,展现了智能边界的突破。该模型坚持不使用蒸馏数据,走独立研发路线,同时在训练和推理效率上实现了优化,能够满足海量用户的需求。豆包1.5的发布,标志着多模态AI技术的进一步发展,为未来应用场景提供了更多可能性。来源:微信公众号【新智元】

阶跃星辰发布多模态六连发,春节档最强AI家族来袭
阶跃星辰在春节档重磅推出六款全新AI模型,涵盖语言、语音、推理和多模态生成等多个领域,进一步巩固其在多模态领域的领先地位。其中,Step-1o Vision在视觉推理和图像理解方面表现出色,拿下多个权威榜单第一;Step-1o Audio语音模型升级,支持多语种和情绪感知;推理模型Step R-mini在数学和文科任务中表现优异,媲美国际顶尖水平。此外,Step-Video V2视频生成模型在复杂运动和人物刻画上实现突破,展现了强大的创造力。阶跃星辰的多模态矩阵升级,不仅提升了模型性能,也为未来AI应用提供了更广阔的可能性。来源:微信公众号【新智元】

谷歌Gemini 2.0升级版发布,1M长上下文能力再登榜首
谷歌发布了Gemini 2.0 Flash Thinking推理模型的加强版,并再次登顶Chatbot Arena排行榜。此次升级的亮点是引入了1M长的上下文处理能力,能够对长篇文本进行更深入的分析,同时在多轮对话和推理中实现自我纠错。谷歌AI掌门人Jeff Dean表示,该模型在对话过程中能够保持连贯的思维,并灵活运用之前积累的信息完成任务。此外,Gemini 2.0 Flash Thinking在数学、科学和多模态推理能力上均有显著提升,特别是在数学测试中,成绩提升了54%。谷歌还推出了“Google AI Studio”平台,提供API密钥、提示词创建、实时对话等功能,但目前功能入口较为分散,缺乏详细文档。Jeff Dean透露,未来谷歌将瞄准3D数据,探索更多模态的融合。Gemini 2.0的升级不仅展现了谷歌在AI领域的技术实力,也为未来通用模型的发展提供了新的方向。来源:微信公众号【机器之心】
北大发布OmniManip架构,化解机器人操作中的“幻觉”问题
北京大学与智元机器人联合实验室近日发布了OmniManip架构,旨在解决机器人操作中的“幻觉”问题,并大幅提升3D理解能力。OmniManip通过结合视觉语言模型(VLM)和双闭环系统,将高层次推理能力转化为机器人的低层次高精度动作。该架构引入了以物体为中心的交互基元,通过3D模型生成和规范化空间设计,优化机器人操作的交互姿态。同时,OmniManip采用闭环VLM规划和机器人执行设计,有效减少大模型幻觉对操作的影响,显著提高了操作成功率。实验结果表明,OmniManip在多种机器人操作任务中展现了强大的零样本泛化能力。此外,该架构具有广泛的拓展性,能够迁移至不同形态的机器人本体,并支持长程任务操作。相关代码和测试平台即将开源,为机器人操作领域的研究提供了新的思路和工具。来源:微信公众号【机器之心】

大模型时代新标准:日均10亿Tokens消耗量
在AI大模型时代,一个新的价值标准正在形成——日均10亿Tokens消耗量。量子位结合2024年下半年市场数据发现,至少有200家中国企业达到了这一水平,覆盖教育、互联网、游戏等多个领域。这一指标不仅反映了AI应用的活跃度,也成为判断AI业务是否跑通的关键。例如,作业帮旗下的Question.AI单日消耗Tokens接近10亿,筑梦岛的日均消耗量也超过10亿。云厂商如腾讯、百度等披露的Tokens调用量更是高达千亿级别。日均10亿Tokens消耗量不仅代表了AI应用落地的新趋势,也预示着大模型商用化的加速。未来,随着Agent开发平台和AI基础设施的不断完善,单个企业日均百万亿甚至千万亿Tokens的消耗将成为可能,推动AI应用进入更广泛的商业场景。来源:微信公众号【量子位】
