10月20日·DeepSeek开源新模型,探索视觉文本压缩新路径
10月20日·周一 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
DeepSeek开源新模型,探索视觉文本压缩新路径
DeepSeek开源了一款3B参数量的OCR模型——DeepSeek-OCR,旨在通过光学二维映射技术实现长文本上下文的高效压缩。该模型由DeepEncoder和DeepSeek3B-MoE-A570M解码器组成,实验显示在文本token数量为视觉token的10倍以内时,解码精度可达97%,即使压缩率到20×,OCR准确率仍约60%。在OmniDocBench基准测试中,仅用100个视觉token就超越了GOT-OCR2.0,展现出强大的实用价值。DeepSeek-OCR为视觉-文本压缩范式提供了新的探索方向,有望在长上下文压缩和LLM记忆遗忘机制研究中发挥重要作用。来源:微信公众号【机器之心】

微软BitDistill:将LLM压缩到1.58比特,显著提升部署效率
微软研究者提出BitDistill框架,可将LLM微调至1.58比特,以适配下游任务并保持性能。该框架包含模型精炼、持续预训练和基于蒸馏的微调三个阶段,通过引入归一化层、持续训练和知识蒸馏技术,解决了低比特量化模型优化不稳定、适配性差等问题。实验表明,BitDistill在CPU上实现了10倍内存节省和2.65倍推理加速,推理速度提升约2倍,内存占用减少近10倍,为LLM在资源受限设备上的高效部署提供了新思路。来源:微信公众号【机器之心】

ReinFlow:用在线RL微调机器人流匹配策略
卡耐基梅隆大学、清华大学和德克萨斯大学奥斯汀分校的研究团队开源了ReinFlow框架,用于通过在线强化学习微调机器人流匹配策略。ReinFlow基于策略梯度理论,将确定性流转换为马尔可夫过程,直接优化整条流匹配链。相比DPPO,ReinFlow节省60%以上训练时间,支持少步甚至单步推理。在多个基准任务上,ReinFlow相较预训练模型取得了显著性能提升,且提供了完整训练教程、数据集和检查点,便于复现和应用。来源:微信公众号【量子位】

蚂蚁AQ:AI医疗App带来全新体验
蚂蚁推出AI医疗App——AQ,用户可通过拍照等方式进行病情诊断,如测秃头等级、分析病例报告等,还能与支付宝联动实现挂号、买药、查医保等功能,打造了“看病”场景闭环。AQ的问诊流程与医院类似,诊断结果较为准确,但部分功能实用性存疑,如CT片识别能力有限。总体而言,AQ在日常小毛病诊断、挂号买药等方面表现不错,但涉及专业影像检测仍需前往医院。来源:微信公众号【量子位】

Vidu Q2携“王炸”登场,AI视频创作进入新阶段
Vidu Q2正式上线,带来参考生功能、视频延长功能以及APP全面改版升级。参考生功能可实现高一致性视频生成,速度更快且价格更优惠;视频延长功能支持将视频延长至5分钟,满足复杂叙事需求。Vidu APP从AI创作平台转变为一站式AI内容社交平台,用户可轻松进行二次创作、合拍等操作,创作门槛大幅降低。此次升级使Vidu在AI视频生成领域更具竞争力,为创作者和公司提供了更高效、低成本的创作工具。来源:微信公众号【量子位】