3月13日·Open-Sora 2.0开源，低成本打造高性能视频生成模型

AI资讯速递1年前 (2025)发布 FuturX-Editor

625 0 0

3月13日·周四 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

Open-Sora 2.0开源，低成本打造高性能视频生成模型

潞晨科技正式推出开源视频生成模型Open-Sora 2.0，仅用20万美元（224张GPU）成功训练出11B参数的商业级视频生成大模型。该模型在多项关键指标上媲美数百万美元训练成本的闭源模型，如HunyuanVideo和30B参数的Step-Video。Open-Sora 2.0采用3D自编码器和Flow Matching训练框架，引入3D全注意力机制，借助开源图生视频模型FLUX初始化，大幅降低训练成本。此外，其高压缩比视频自编码器将推理时间缩短至单卡3分钟以内，提升推理速度10倍。Open-Sora 2.0全面开源模型权重、推理代码及分布式训练全流程，推动视频生成技术的普及与发展。来源：微信公众号【新智元】

谷歌Gemini 2.0抢先发布全模态图像生成功能，动漫游戏圈沸腾

谷歌Gemini 2.0 Flash正式上线原生图像生成功能，抢先于OpenAI发布全模态图像生成器，引发广泛关注。该功能支持通过自然语言对话生成和编辑图像，能够结合现实世界知识生成更符合上下文的图像内容，同时支持文本与图像的结合输出，保持高度一致性。用户可以通过简单的语言指令完成复杂的图像编辑任务，如为漫画角色添加动作、生成故事分镜、制作表情包等。此外，Gemini 2.0 Flash在文本渲染方面表现出色，能够清晰呈现长文本内容。目前，开发者已可通过Gemini API和Google AI Studio使用该功能。其强大的多模态能力和自然语言交互特性，为动漫、漫画和游戏创作带来了新的可能性。来源：微信公众号【新智元】

CMU提出「元强化微调」新范式，超越DeepSeek-R1关键算法

卡内基梅隆大学（CMU）和Hugging Face的研究者提出了一种名为「元强化微调」（Meta Reinforcement Fine-Tuning，MRT）的新范式，旨在优化大语言模型（LLM）的测试时计算效率。该方法通过最小化累积悔值，训练模型在测试时根据预算动态调整策略，平衡探索与利用。实验表明，MRT在多个基准测试中超越了DeepSeek-R1的关键强化学习算法GRPO，准确率提升2-3倍，token效率提升1.5倍以上。此外，MRT在回溯搜索设置中也展现出更高的线性化效率。该研究为优化LLM的推理能力和计算效率提供了新的思路和方法。来源：微信公众号【机器之心】

谷歌发布两款具身智能大模型，推理能力解锁机器人复杂技能

谷歌将推理大模型应用于机器人，推出了两款基于Gemini 2.0系列的具身智能模型：Gemini Robotics和Gemini Robotics-ER。Gemini Robotics是一款视觉-语言-动作（VLA）模型，能够通过物理动作直接控制机器人，完成折纸、系鞋带等精细任务，并适应机械臂和人形机器人等不同形态。Gemini Robotics-ER则进一步增强了对空间和时间的理解能力，解锁了指向、多视图3D理解和抓握预测等功能。此外，谷歌还发布了具身推理基准测试ERQA，用于评估AI在空间推理、动作推理等方面的能力。相关研究耗时一年半，旨在让机器人更好地协助人类完成家庭和工作中的任务。来源：微信公众号【量子位】

谷歌发布27B开源模型Gemma 3，单GPU高效运行性能领先

谷歌推出最新开源模型Gemma 3，参数量达27B，可在单个GPU或TPU上高效运行，性能超越DeepSeek V3、o3-mini和Llama-405B等模型，仅次于R1。Gemma 3在ChatBot Arena Imarena大模型竞技场中跻身Top 10，支持多模态、多语言（超35种语言）和128k Token上下文窗口。此外，英伟达参与优化，确保其在各类GPU上表现优异，谷歌还提供了详细的部署教程。目前，Gemma 3可在Google AI Studio上体验，并支持在Hugging Face、Ollama、Kaggle等平台下载。来源：微信公众号【量子位】