3月7日·周四 AI工具和资源推荐
AI全网资源导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
搜索准确性提升 20%,Jina Reranker 成为 RAG 优化的新标杆!
日前,Jina AI正式发布了 Jina Reranker(jina-reranker-v1-base-en),专为提高搜索准确性打造。Jina Reranker 在多个权威测评中屡获领先,实验数据显示,相比简单 RAG 系统,搭载该模型的检索系统命中率提高 8%,MRR 更是飙升 33%。尽管向量检索初步完成了排序,但这种文档级别的粗排往往忽略了用户真实的检索意图,并且难以捕捉语义细节,尤其是在处理复杂查询时,最终结果未必匹配用户需求,此外,虽然得分最高的文档或许相关,但其余排名的文档相关性可能大打折扣。这时,Reranker 就成为了向量检索的有力补充,在查询时进行 Token 级别的深度分析,能够更精确地理解用户的真实意图,从而提升搜索结果的相关性和准确性。这不仅优化了用户体验,减少了用户筛选结果的工作量,还使得搜索系统能够更好地适应多变和复杂的用户需求。来源:微信公众号【Jina AI】
为音视频分离提供新视角,清华大学胡晓林团队推出RTFS-Net
来自清华大学胡晓林副教授团队的研究者们提出了 RTFS-Net:一种全新的视听语音分离模型。RTFS-Net 通过压缩 – 重建的方式,在提高分离性能的同时,大幅减少了模型的计算复杂度和参数数量。RTFS-Net 是第一个采用少于 100 万个参数的视听语音分离方法,也是第一个时频域多模态分离模型优于所有时域模型的方法。RTFS 块对声学维度(时间和频率)进行压缩和独立建模,在创建低复杂度子空间的同时尽量减少信息丢失。具体来说,RTFS 块采用了一种双路径架构,用于在时间和频率两个维度上对音频信号进行有效处理。通过这种方法,RTFS 块能够在减少计算复杂度的同时,保持对音频信号的高度敏感性和准确性。来源:微信公众号【机器之心】
全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA
美团、浙大等提出视觉任务统一架构VisionLLAMA在图像生成(包含 Sora 依赖的底层的 DIT)和理解(分类、分割、检测、自监督)等多个主流任务上相较于原 ViT 类方法提升显著。该研究在统一图像和语言架构方面的尝试,可以复用 LLM 社区在 LLaMA 上的训练(稳定且有效的 scaling)、部署等一系列成果。LLaMA 架构的成功使得本文作者提出了一个简单而有趣的设想:该架构是否可以在视觉模态上同样成功?如果答案是肯定的,那么视觉模型和语言模型都可以使用相同的统一架构,并从为 LLaMA 设计的各种动态部署技术中受益。然而,这是一个复杂的问题,因为这两种模态之间存在一些明显的差异。首先存在维度差异:文本序列是一维的,而视觉任务需要处理两个或更多维度的数据;其次存在结构差异:许多视觉任务依赖于金字塔结构的骨干网络以获得更好的性能,而 LLaMA 是一个结构上朴素的编码器;第三,需要有效处理不同分辨率的图像和视频输入。本文旨在解决这些挑战,并弥合不同模态之间的架构差距,具体为提出适应视觉任务的 LLaMA 架构,解决与模态差异相关的难题,并实现通过一种统一的方法对视觉和语言数据进行处理。来源:微信公众号【机器之心】
AtomoVideo:阿里推出高保真图像到视频生成开源模型,具有更好的运动强度和一致性
AtomoVideo是一种新型的高保真图像到视频(I2V)生成框架,可以从输入图像生成高保真视频,实现比现有工作更好的运动强度和一致性,并且兼容各种个性化的T2I模型,无需特定调整。图像到视频方法的框架:使用预训练好的T2I模型,在每个空间卷积和注意层之后新增1D时间卷积和时间注意模块,固定T2I模型参数,只训练新增的时间层。同时,为了注入图像信息,将输入通道修改为9通道,增加图像条件隐码和二值掩码。由于输入的拼接图像信息仅由VAE编码,因此它代表低级信息,这有助于增强视频相对于给定图像的保真度。同时还以交叉注意的形式注入高级图像语义,以实现更多的语义图像可控性。来源:微信公众号【AIGC Studio】
零一万物发布并开源 Yi-9B,代码数学综合能力全面增强
零一万物开源了 Yi-9B 模型,它是当前 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳;不偏科,中文能力也很强。这是继今年1月23日开源多模态模型 Yi-VL-34B 之后,零一万物在开源方向上的又一重要成果。代码和数学能力出色,综合实力强劲。在综合能力方面(Mean-All),Yi-9B 的性能在尺寸相近的开源模型中最好,超越了 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B。在代码能力方面(Mean-Code),Yi-9B 的性能仅次于 DeepSeek-Coder-7B,超越了 Yi-34B、SOLAR-10.7B、Mistral-7B 和 Gemma-7B。在数学能力方面(Mean-Math),Yi-9B 的性能仅次于 DeepSeek-Math-7B,超越了 SOLAR-10.7B、Mistral-7B 和 Gemma-7B。在常识和推理能力方面(Mean-Text),Yi-9B 的性能与 Mistral-7B、SOLAR-10.7B 和 Gemma-7B 不相上下。在语言能力方面,相比于其他相近尺寸的模型,Yi-9B 不仅具备不错的英文能力,还拥有 Yi 系列模型广受好评的强大中文能力。来源:微信公众号【零一万物 01AI】