3月28日

AI资讯速递1年前 (2024)发布 FuturX-Editor

309 0 0

3月28日·周四 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

本周三，大数据人工智能公司 Databricks 开源了通用大模型 DBRX，这是一款拥有 1320 亿参数的混合专家模型（MoE）。DBRX 的基础（DBRX Base）和微调（DBRX Instruct）版本已经在 GitHub 和 Hugging Face 上发布，可用于研究和商业用途。人们可以自行在公共、自定义或其他专有数据上运行和调整它们，也可以通过 API 的形式使用。DBRX 在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型，如 LLaMA2-70B、Mixtral 和 Grok-1。同时，DBRX 也在大多数基准测试上超过了 GPT-3.5，并在质量上可与 Gemini 1.0 Pro 和 Mistral Medium 竞争，同时速度大大加快。托管在 Mosaic AI Model Serving 上时，速度达到了 150 token/s/ 用户。DBRX 的效率很高，它是基于斯坦福 MegaBlocks 开源项目构建的混合专家模型，平均只用激活 360 亿参数来处理 token，可以实现极高的每秒处理速度。它的推理速度几乎比 LLaMA2-70B 快两倍，总参数和活动参数数量比 Grok 小约 40%。来源：微信公众号【机器之心】

看视频、画CAD、运动想像识别！75B的多模态工业大模型太能干了

经过半年努力，创新奇智在北京举办的发布会上发布了更为强大的奇智孔明工业大模型 2.0 版本（ AInno-75B ），几款大模型原生应用也首次亮相，包括 ChatVision 、ChatCAD，ChatRobot 也升级到 Pro 版本。Scaling laws 的发现有助于研究人员和工程师们预测增加模型规模所带来的性能收益，以及为了达到特定性能目标需要的参数数量。如今业界已经形成一些共识，参数的提升可以让模型性能提升。较之 AInno-15B ，AInno-75B 在规模和性能方面取得了显著增长。创新奇智率先将工业大模型技术引入工业设计领域，推出Text-to-CAD类应用—“ChatCAD”：通过简单的对话问答形式，便能迅速理解设计师的创意意图，自动生成符合要求的工业设计图，并支持导出到传统软件进行微调。来源：微信公众号【机器之心】

华科&金山发布TextMonkey：一款比GPT4V效果更好的OCR开源视觉大模型

最近，华中科技大学和金山的研究人员在多模态大模型Monkey(CVPR2024）工作的基础上提出TextMonkey。TextMonkey是Monkey在文档领域的重要升级，突破了通用文档理解能力的边界，在多个场景文本和文档的测试基准中，TextMonkey处于国际领先地位，有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。显着提高了各种基准数据集的性能，在以场景文本为中心的VQA、面向文档的 VQA和KIE方面分别实现了5.2%、6.9%和2.8% 的增长，尤其是在OCRBench上得分为561，超越了先前用于文档理解的开源大型多模式模型。来源：微信公众号【AIGC Studio】

腾讯OMG：支持多角色多概念在一张图片中生成，生成合影的问题终于解决了！

腾讯的最新研究牛支持多角色多概念在一张图片中生成。以前的 ID 或者概念保持项目只能将一个人还原在图片里面，有了这个项目以后就可以多人合照了。项目还支持与原有的 ID 保持项目一起使用比如 Lora 以及InstantID。代码已经开源，感兴趣的小伙伴可以看看插件实现了。OMG是一个多概念图像生成框架，支持Civitai.com上的角色和风格lora。它还可以与多个ID的InstantID结合使用，并为每个ID使用单个图像。它是专门为个性化生成设计的，并能友好地处理遮挡问题，能够在一幅图像中无缝集成多种概念。OMG框架包含两个阶段：第一阶段专注于图像布局的生成和为处理遮挡而收集视觉理解信息；第二阶段则利用这些视觉理解信息，并结合精心设计的噪声混合技术，将多个概念融合在一起，同时考虑遮挡因素。论文还发现在噪声混合过程中选择合适的开始去噪时间点对于保持人物身份和图像布局至关重要。此外，OMG还能与多种单概念生成模型兼容，如LoRA和InstantID，无需额外调整。来源：微信公众号【AIGC Studio】

微软亚研院新作：让大模型一口气调用数百万个API！

近期在《科学》合作期刊Intelligent Computing上发表的论文TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs中正式亮相，作者为微软亚洲研究院的段楠博士团队。TaskMatrix.AI将基础大模型与数以百万计的应用程序编程接口（APIs）连接起来完成任务。其核心思想是利用现有的基础大模型作为类似大脑的中央系统，结合其他AI模型和系统的APIs作为各种子任务解决者，以完成数字和物理领域的多样化任务。TaskMatrix.AI的整体架构由以下四个关键组件构成：多模态对话基础模型（MCFM）：负责与用户沟通，理解他们的目标和上下文（多模态），并基于API生成可执行代码以完成特定任务。MCFM能够处理文本、图像、视频、音频和代码等多模态输入，生成执行特定任务的代码。它还能够从用户指令中提取具体任务，并提出合理的解决方案大纲，帮助选择最合适的API进行代码生成。API平台：提供一个统一的API文档架构，用于存储数以百万计具有不同功能的API，并允许API开发者和所有者注册、更新和删除他们的API。API平台通过统一的文档架构帮助MCFM更好地理解和利用各种API。API选择器：根据MCFM对用户指令的理解，推荐相关的API。API选择器具备搜索能力，能够在拥有大量API的平台上快速定位到与任务需求和解决方案大纲相匹配的API。API执行器：通过调用相关API执行生成的动作代码，并返回中间和最终的执行结果。API执行器设计用于运行各种API，包括从简单的HTTP请求到复杂的算法或需要多个输入参数的AI模型。来源：微信公众号【量子位】