4月12日

AI资讯速递2年前 (2024)发布 FuturX-Editor

799 0 0

4月12日·周五 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

西班牙团队用DALL-E生成老照片，正探索联用“回忆疗法”治疗痴呆症患者

目前，DDS 工作室运营的“合成记忆”项目，已经将数十人的记忆以这种方式转化为图片。该工作室使用了图像生成模型，如 OpenAI 的 DALL-E，将人们的记忆具象化。研究人员还发现，旧版的图像生成模型比新版的效果更好。他们在项目之初使用了 2022 年推出的两个模型：DALL-E 2 和 Stable Diffusion。后者是 Stability AI 发布的一个免费的图像生成模型。这些模型生成的图像有缺陷，包括怪异的脸和扭曲的身体。但当他们切换到最新版的 Midjourney （另一种可以创建更细致图像的模型）时，结果并没有那么受欢迎。来源：微信公众号【DeepTech深科技】

企业级AI Agent如何落地汽车行业，这是国内首份系统阐述白皮书

4 月 12 日，清华大学自然语言处理实验室、易慧智能、面壁智能三方共同发布了《大模型驱动的汽车行业群体智能技术白皮书》。近年来，汽车市场的需求放缓、供给效能提升导致了激烈的「价格战」。这固然利好广大消费者，但对于汽车领域的企业来说是一把双刃剑，快速抢占市场份额的同时，利润空间也被压缩。如何破局，是个难题。大模型技术的兴起，对于汽车企业的智能化转型是一次全新的机遇。汽车行业具备数据丰富、场景明确、技术成熟、市场需求高和行业竞争激烈等特点，恰好是最适合 AI Agent 落地的领域之一。当强烈的转型需求遇上大模型技术的历史性突破，清华大学自然语言处理实验室、易慧智能和面壁智能三方一拍即合，决定共同做一件推动汽车行业变革的「大事」。这份白皮书，便是三方深度「产学研」合作的成果。来源：微信公众号【机器之心】

中文OCR超越GPT-4V，参数量仅2B，面壁小钢炮拿出了第二弹

今年 2 月 1 日，面壁智能发布的第一代 2B 旗舰端侧大模型 MiniCPM，不仅超越了来自「欧洲版 OpenAI」Mistral 的性能标杆之作，同时整体领先于 Google Gemma 2B 量级，还越级超越了一些业内标杆的 7B、13B 量级模型，如 LLaMa2-13B 等。仅仅 70 天以后，端侧大模型面壁 MiniCPM 小钢炮的第二弹乘胜追击，迎来多模态、长文本、MoE 等领域模型的迭代，主打的就是「小而强，小而全」。4 月 11 日，面壁智能正式发布了新一代 MiniCPM 系列模型，包括四个模型：OCR 能力惊艳，当前端侧最强多模态模型MiniCPM-V 2.0；适配更多端侧场景，仅 1.2B 的基座模型 MiniCPM-1.2B；最小的 128K 长文本模型 MiniCPM-2B-128K；性能进一步增强的 MoE 架构模型 MiniCPM-MoE-8x2B。来源：微信公众号【机器之心】

直接扩展到无限长，谷歌Infini-Transformer终结上下文长度之争

谷歌又放大招了，发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入，而不增加内存和计算需求。使用该技术，研究者成功将一个 1B 的模型上下文长度提高到 100 万；应用到 8B 模型上，模型能处理 500K 的书籍摘要任务。谷歌引入了一种有效的方法，其关键组成部分是一种称为 Infini-attention（无限注意力）的新注意力技术。不同于传统的 Transformer 使用局部注意力丢弃旧片段，为新片段释放内存空间。Infini-attention 增加了压缩内存（compressive memory），可以将使用后的旧片段存储到压缩内存中，输出时会聚合当前上下文信息以及压缩内存中的信息，因而模型可以检索完整的上下文历史。该方法使 Transformer LLM 在有限内存的情况下扩展到无限长上下文，并以流的方式处理极长的输入进行计算。来源：微信公众号【机器之心】

谷歌、OpenAI、Mistral 在24小时内打响科技界“三强争霸赛”

太平洋时间本周二 11:01，谷歌在官网中宣布在 180 多个国家 / 地区通过 Gemini API 提供 Gemini 1.5 Pro 的公开预览版，这是它目前功能最强大的生成式 AI 模型。谷歌本以为能在互联网上掀起一番声势浩大的讨论，不料短短 40 分钟后，OpenAI 就出来抢风头了：它发布了非预览版的 GPT-4 Turbo，将之前独立的 GPT-4 Vision 直接集成到模型中。这还没完，下午 6:20，Mistral 在 X 上直接了当地甩出一条磁链，强势开源 Mixtral 8x22B 这个超大模型。谷歌刚拔剑出鞘，OpenAI 和 Mistral 立马摩拳擦掌加入战斗，科技界“三强争霸赛”一触即发。Gemini 1.5 Pro 目前已在谷歌面向企业的 AI 开发平台 Vertex AI 上提供公共预览版。Gemini 1.5 Pro 目前已在谷歌面向企业的 AI 开发平台 Vertex AI 上提供公共预览版。Mistral AI 开源了 Mistral 8X22B 模型，再一次为开源社区注入了新鲜血液。来源：微信公众号【AI前线】