3月7日

AI资讯速递2年前 (2024)发布 FuturX-Editor

969 0 0

3月7日·周四 AI工具和资源推荐

AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐，在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。

搜索准确性提升 20%，Jina Reranker 成为 RAG 优化的新标杆！

日前，Jina AI正式发布了 Jina Reranker(jina-reranker-v1-base-en)，专为提高搜索准确性打造。Jina Reranker 在多个权威测评中屡获领先，实验数据显示，相比简单 RAG 系统，搭载该模型的检索系统命中率提高 8%，MRR 更是飙升 33%。尽管向量检索初步完成了排序，但这种文档级别的粗排往往忽略了用户真实的检索意图，并且难以捕捉语义细节，尤其是在处理复杂查询时，最终结果未必匹配用户需求，此外，虽然得分最高的文档或许相关，但其余排名的文档相关性可能大打折扣。这时，Reranker 就成为了向量检索的有力补充，在查询时进行 Token 级别的深度分析，能够更精确地理解用户的真实意图，从而提升搜索结果的相关性和准确性。这不仅优化了用户体验，减少了用户筛选结果的工作量，还使得搜索系统能够更好地适应多变和复杂的用户需求。来源：微信公众号【Jina AI】

为音视频分离提供新视角，清华大学胡晓林团队推出RTFS-Net

来自清华大学胡晓林副教授团队的研究者们提出了 RTFS-Net：一种全新的视听语音分离模型。RTFS-Net 通过压缩 – 重建的方式，在提高分离性能的同时，大幅减少了模型的计算复杂度和参数数量。RTFS-Net 是第一个采用少于 100 万个参数的视听语音分离方法，也是第一个时频域多模态分离模型优于所有时域模型的方法。RTFS 块对声学维度（时间和频率）进行压缩和独立建模，在创建低复杂度子空间的同时尽量减少信息丢失。具体来说，RTFS 块采用了一种双路径架构，用于在时间和频率两个维度上对音频信号进行有效处理。通过这种方法，RTFS 块能够在减少计算复杂度的同时，保持对音频信号的高度敏感性和准确性。来源：微信公众号【机器之心】

全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA

美团、浙大等提出视觉任务统一架构VisionLLAMA在图像生成（包含 Sora 依赖的底层的 DIT）和理解（分类、分割、检测、自监督）等多个主流任务上相较于原 ViT 类方法提升显著。该研究在统一图像和语言架构方面的尝试，可以复用 LLM 社区在 LLaMA 上的训练（稳定且有效的 scaling）、部署等一系列成果。LLaMA 架构的成功使得本文作者提出了一个简单而有趣的设想：该架构是否可以在视觉模态上同样成功？如果答案是肯定的，那么视觉模型和语言模型都可以使用相同的统一架构，并从为 LLaMA 设计的各种动态部署技术中受益。然而，这是一个复杂的问题，因为这两种模态之间存在一些明显的差异。首先存在维度差异：文本序列是一维的，而视觉任务需要处理两个或更多维度的数据；其次存在结构差异：许多视觉任务依赖于金字塔结构的骨干网络以获得更好的性能，而 LLaMA 是一个结构上朴素的编码器；第三，需要有效处理不同分辨率的图像和视频输入。本文旨在解决这些挑战，并弥合不同模态之间的架构差距，具体为提出适应视觉任务的 LLaMA 架构，解决与模态差异相关的难题，并实现通过一种统一的方法对视觉和语言数据进行处理。来源：微信公众号【机器之心】

AtomoVideo：阿里推出高保真图像到视频生成开源模型，具有更好的运动强度和一致性

AtomoVideo是一种新型的高保真图像到视频(I2V)生成框架，可以从输入图像生成高保真视频，实现比现有工作更好的运动强度和一致性，并且兼容各种个性化的T2I模型，无需特定调整。图像到视频方法的框架：使用预训练好的T2I模型，在每个空间卷积和注意层之后新增1D时间卷积和时间注意模块，固定T2I模型参数，只训练新增的时间层。同时，为了注入图像信息，将输入通道修改为9通道，增加图像条件隐码和二值掩码。由于输入的拼接图像信息仅由VAE编码，因此它代表低级信息，这有助于增强视频相对于给定图像的保真度。同时还以交叉注意的形式注入高级图像语义，以实现更多的语义图像可控性。来源：微信公众号【AIGC Studio】

零一万物发布并开源 Yi-9B，代码数学综合能力全面增强

零一万物开源了 Yi-9B 模型，它是当前 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳；不偏科，中文能力也很强。这是继今年1月23日开源多模态模型 Yi-VL-34B 之后，零一万物在开源方向上的又一重要成果。代码和数学能力出色，综合实力强劲。在综合能力方面（Mean-All），Yi-9B 的性能在尺寸相近的开源模型中最好，超越了 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B。在代码能力方面（Mean-Code），Yi-9B 的性能仅次于 DeepSeek-Coder-7B，超越了 Yi-34B、SOLAR-10.7B、Mistral-7B 和 Gemma-7B。在数学能力方面（Mean-Math），Yi-9B 的性能仅次于 DeepSeek-Math-7B，超越了 SOLAR-10.7B、Mistral-7B 和 Gemma-7B。在常识和推理能力方面（Mean-Text），Yi-9B 的性能与 Mistral-7B、SOLAR-10.7B 和 Gemma-7B 不相上下。在语言能力方面，相比于其他相近尺寸的模型，Yi-9B 不仅具备不错的英文能力，还拥有 Yi 系列模型广受好评的强大中文能力。来源：微信公众号【零一万物 01AI】