7月3日·智源研究院发布OmniGen2，开源多模态图像生成新突破

580 0 0

7月3日·周四 AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

智源研究院发布OmniGen2，开源多模态图像生成新突破

智源研究院于2024年9月发布统一图像生成模型OmniGen后，近日迎来重大升级，推出OmniGen2。该模型采用分离式架构与双编码器策略，显著提升上下文理解、指令遵循及图像生成质量。OmniGen2重构数据生成流程，解决开源数据集质量缺陷问题，并引入反思机制优化生成效果。此外，模型权重、训练代码及数据全面开源，助力开发者优化与扩展。科研体验版已上线，支持基于自然语言指令的图像编辑、多模态上下文参考图像生成等功能，为AI绘图领域带来新突破。来源：微信公众号【机器之心】

全球首个AI原生游戏引擎Mirage发布，开启实时生成游戏新时代

谷歌、英伟达等八大机构联手推出全球首款AI原生UGC游戏引擎Mirage，玩家可通过自然语言指令实时生成游戏内容，无需预设关卡。Mirage支持多种游戏风格，如GTA风格的都市乱斗和极限竞速风格的海岸漂移，玩家可随时改变游戏环境，如天气、场景等。其核心基于Transformer和扩散模型，通过大规模游戏数据训练，支持连贯、高质量的实时交互体验。Mirage的出现标志着生成式游戏时代的到来，为玩家带来无限可玩性和全新的游戏创作自由。来源：微信公众号【新智元】

上下文工程成AI新热点，超越提示词工程

“上下文工程”成为AI领域的热门话题，受到Andrej Karpathy等专家的关注，并登上知乎热搜。与传统的提示词工程不同，上下文工程强调通过构建有效的输入文本（上下文）来引导大语言模型生成期望的输出，而非单纯依赖“魔法咒语”式的提示词。其核心在于打造一个“超级输入”工具箱，整合指令、知识、检索增强生成（RAG）和智能体等技术，为模型提供最完美的输入内容。实践方法上，建议采用科学实验的方式，从后往前规划，明确目标、拆解任务，再从前往后构建系统，分步测试，确保系统高效运行。上下文工程的兴起标志着AI应用从艺术化向工程化的转变，为开发者提供了更系统、更可靠的优化路径。来源：微信公众号【机器之心】

阿里巴巴达摩院推出WorldVLA，首次融合世界模型与动作模型

阿里巴巴达摩院提出了WorldVLA模型，首次将世界模型（World Model）和动作模型（Action Model/VLA Model）融合到一个全自回归模型中，统一了文本、图片、动作的理解与生成。该模型通过独立编码器分别处理图像、文本和动作数据，并共享同一词表，实现跨模态的统一建模。其创新点在于双向增强机制：世界模型通过动作生成视觉表示，动作模型则增强视觉信息理解，提升图像生成准确性。此外，针对自回归模型中动作生成的误差累积问题，提出了一种动作注意力掩码策略，有效缓解了错误传播。在LIBERO基准测试中，WorldVLA显著提升了抓取成功率和视频生成质量，验证了融合框架的优势。该研究为具身智能领域提供了新的技术路径。来源：微信公众号【机器之心】

Nature子刊发布新研究，科学家通过脑图量化衰老速度

一项发表于Nature子刊的研究提出了一种名为DunedinPACNI的新指标，能够通过脑部MRI扫描量化衰老速度。该研究基于Dunedin研究，追踪了1037名参与者从出生到45岁的生理衰老过程，分析了19项多系统生理衰老生物标志物的长期变化趋势。研究团队利用弹性网络回归模型，从315项脑部结构性特征中筛选出99项关键特征，构建了DunedinPACNI模型。该模型仅需一次T1脑MRI扫描，即可输出个体的相对生物衰老速度。实验结果表明，DunedinPACNI与纵向衰老速度高度相关，且能预测认知衰退、痴呆风险以及海马体萎缩等衰老相关结果。此外，该指标还与全身健康状况、慢性疾病风险和全因死亡率相关，为评估整体健康提供了新工具。来源：微信公众号【量子位】