7月3日·智源研究院发布OmniGen2,开源多模态图像生成新突破

7月3日·周四  AI工具和资源推荐

AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

智源研究院发布OmniGen2,开源多模态图像生成新突破

智源研究院于2024年9月发布统一图像生成模型OmniGen后,近日迎来重大升级,推出OmniGen2。该模型采用分离式架构与双编码器策略,显著提升上下文理解、指令遵循及图像生成质量。OmniGen2重构数据生成流程,解决开源数据集质量缺陷问题,并引入反思机制优化生成效果。此外,模型权重、训练代码及数据全面开源,助力开发者优化与扩展。科研体验版已上线,支持基于自然语言指令的图像编辑、多模态上下文参考图像生成等功能,为AI绘图领域带来新突破。来源:微信公众号【机器之心】

7月3日·智源研究院发布OmniGen2,开源多模态图像生成新突破

全球首个AI原生游戏引擎Mirage发布,开启实时生成游戏新时代

谷歌、英伟达等八大机构联手推出全球首款AI原生UGC游戏引擎Mirage,玩家可通过自然语言指令实时生成游戏内容,无需预设关卡。Mirage支持多种游戏风格,如GTA风格的都市乱斗和极限竞速风格的海岸漂移,玩家可随时改变游戏环境,如天气、场景等。其核心基于Transformer和扩散模型,通过大规模游戏数据训练,支持连贯、高质量的实时交互体验。Mirage的出现标志着生成式游戏时代的到来,为玩家带来无限可玩性和全新的游戏创作自由。来源:微信公众号【新智元】

7月3日·智源研究院发布OmniGen2,开源多模态图像生成新突破

上下文工程成AI新热点,超越提示词工程

上下文工程”成为AI领域的热门话题,受到Andrej Karpathy等专家的关注,并登上知乎热搜。与传统的提示词工程不同,上下文工程强调通过构建有效的输入文本(上下文)来引导大语言模型生成期望的输出,而非单纯依赖“魔法咒语”式的提示词。其核心在于打造一个“超级输入”工具箱,整合指令、知识、检索增强生成(RAG)和智能体等技术,为模型提供最完美的输入内容。实践方法上,建议采用科学实验的方式,从后往前规划,明确目标、拆解任务,再从前往后构建系统,分步测试,确保系统高效运行。上下文工程的兴起标志着AI应用从艺术化向工程化的转变,为开发者提供了更系统、更可靠的优化路径。来源:微信公众号【机器之心

7月3日·智源研究院发布OmniGen2,开源多模态图像生成新突破

阿里巴巴达摩院推出WorldVLA,首次融合世界模型与动作模型

阿里巴巴达摩院提出了WorldVLA模型,首次将世界模型(World Model)和动作模型(Action Model/VLA Model)融合到一个全自回归模型中,统一了文本、图片、动作的理解与生成。该模型通过独立编码器分别处理图像、文本和动作数据,并共享同一词表,实现跨模态的统一建模。其创新点在于双向增强机制:世界模型通过动作生成视觉表示,动作模型则增强视觉信息理解,提升图像生成准确性。此外,针对自回归模型中动作生成的误差累积问题,提出了一种动作注意力掩码策略,有效缓解了错误传播。在LIBERO基准测试中,WorldVLA显著提升了抓取成功率和视频生成质量,验证了融合框架的优势。该研究为具身智能领域提供了新的技术路径。来源:微信公众号【机器之心

7月3日·智源研究院发布OmniGen2,开源多模态图像生成新突破

Nature子刊发布新研究,科学家通过脑图量化衰老速度

一项发表于Nature子刊的研究提出了一种名为DunedinPACNI的新指标,能够通过脑部MRI扫描量化衰老速度。该研究基于Dunedin研究,追踪了1037名参与者从出生到45岁的生理衰老过程,分析了19项多系统生理衰老生物标志物的长期变化趋势。研究团队利用弹性网络回归模型,从315项脑部结构性特征中筛选出99项关键特征,构建了DunedinPACNI模型。该模型仅需一次T1脑MRI扫描,即可输出个体的相对生物衰老速度。实验结果表明,DunedinPACNI与纵向衰老速度高度相关,且能预测认知衰退、痴呆风险以及海马体萎缩等衰老相关结果。此外,该指标还与全身健康状况、慢性疾病风险和全因死亡率相关,为评估整体健康提供了新工具。来源:微信公众号【量子位】

7月3日·智源研究院发布OmniGen2,开源多模态图像生成新突破
© 版权声明

相关文章

暂无评论

暂无评论...