WebSailor是阿里云通义实验室于2025年7月正式开源的网络智能体(Web Agent),旨在通过大模型技术实现复杂网络环境下的自主任务执行。作为开源领域首个在BrowseComp评测中逼近闭源系统能力的解决方案,WebSailor突破了传统模型在非线性、高不确定性任务中的性能瓶颈,成为连接语言理解与实际网络交互的关键桥梁。其核心设计理念是让AI像人类研究者一样,在开放网页中自主跳转、多步推理、整合线索,最终解决模糊且复杂的检索问题。例如,面对“找出2018-2022年亚洲顶尖科研机构中人工智能芯片领域论文最多的三位研究者及其代表作”这类多条件约束问题,WebSailor可自动筛选学术数据库、验证研究者机构归属、统计引用数据,并生成结构化答案。


功能特点
-
复杂推理与检索能力
WebSailor在BrowseComp评测集(含1266个高难度问题)中表现卓越,英文版和中文版准确率分别达47.3%和30.1%,超越DeepSeek R1、Grok-3等闭源模型,仅次于OpenAI DeepResearch。其优势在于处理路径不明确、需多跳推理的任务,如通过影视、音乐、新闻等多源信息交叉验证“某HBO剧集片头曲创作者的背景细节”。 -
创新训练体系
- SailorFog-QA数据合成:通过“知识图谱随机游走”构建非线性关系网络,模拟真实世界的复杂查询场景。例如,从冷门实体出发,随机扩展关联路径,生成需要跨域推理的问题。
- 拒绝采样微调(RFT):基于Qwen-2.5系列模型冷启动,筛选高质量解题轨迹进行监督微调,使模型快速掌握基础工具调用模式。
- DUPO强化学习算法:动态采样策略优化训练效率,将复杂Agent的强化学习速度提升2-3倍,支持模型在密集工具交互中快速迭代。
-
模块化架构设计
WebSailor采用分层架构,包含感知层(DOM树分析解析网页结构)、推理层(32B/72B参数Transformer模型支持多跳推理)、执行层(标准化工具调用接口接入浏览工具)。这种设计使其能像人类专家一样完成“识别问题-分解步骤-验证结论”的完整认知闭环。 -
全场景适应能力
除高难度任务外,WebSailor在SimpleQA等简单任务集中也取得93.5%的准确率,验证了其方法的泛化性。例如,在处理“美国现任总统是谁”等基础问题时,模型可直接调用固有知识或简单检索,无需复杂推理。
优缺点
优势:
- 开源生态突破:作为首个逼近闭源系统能力的开源网络智能体,WebSailor填补了开源领域在复杂推理任务中的技术空白,为社区提供了可复现的高标准解决方案。
- 数据驱动架构进化:通过SailorFog-QA生成120万条高不确定性任务样本,解决了高质量训练数据匮乏的行业痛点,开辟了“数据合成+强化学习”的新研发路径。
- 高效训练策略:DUPO算法通过动态采样和经验回放机制,将训练效率提升2-3倍,使模型在BrowseComp最难的三级任务上达到61.2%的准确率,接近OpenAI DeepResearch的67.5%。
局限:
- 硬件门槛较高:72B参数版本需高性能GPU支持,中小企业或个人开发者部署成本较高。
- 复杂任务误差累积:在超长推理链(如20步以上工具调用)中,中间步骤的微小错误可能影响最终结果,需结合人工校验确保准确性。
- 社区生态待完善:作为新兴开源项目,WebSailor的插件和模板数量较少,需依赖用户贡献扩展功能。
主要应用场景
-
科研与数据分析
WebSailor可帮助研究人员快速梳理复杂信息网络。例如,自动分析学术文献中的关键实验数据、对比不同研究方法的优缺点,或生成科研论文的参考文献列表。 -
企业信息整合
在金融、零售等行业,WebSailor能实时抓取市场动态、竞争对手信息或供应链数据,生成可视化报告。例如,自动统计各电商平台某类商品的价格波动趋势,辅助决策。 -
教育领域
教师可使用WebSailor生成个性化教学方案,如根据学生知识盲点自动推荐练习题,或从海量教育资源中筛选适合的案例。学生则可通过其完成作业批改、知识点总结等任务。 -
客户服务
结合对话系统,WebSailor可构建智能客服机器人,处理多轮对话中的复杂问题。例如,用户咨询“如何退货”时,机器人能根据历史对话引导填写退货申请,并实时查询物流状态。
使用方法
- 环境配置
- 克隆GitHub仓库:git clone https://github.com/Alibaba-NLP/WebAgent.git cd WebAgent
- 安装依赖:需Python 3.10+、PyTorch 2.0+及Qwen-2.5系列模型权重。
- 配置数据集:下载SailorFog-QA训练集,解压至
data/
目录。
- 模型训练
- 冷启动微调:python train_rft.py –model_name qwen-2.5-72b-instruct –data_path data/sailorfog_qa_train.json
- 强化学习优化:python train_dupo.py –model_name qwen-2.5-72b-instruct-rft –data_path data/sailorfog_qa_rl.json –batch_size 32
- 推理与评估
- 运行推理脚本:python infer.py –model_name qwen-2.5-72b-instruct-dupo –question “找出2018-2022年亚洲顶尖科研机构中人工智能芯片领域论文最多的三位研究者及其代表作”
- 评估性能:使用BrowseComp评测工具验证模型在复杂任务中的表现。
收费标准
WebSailor为开源项目,基础功能完全免费,用户可自由使用、修改和分发代码。若需商业支持(如私有化部署培训、定制开发、企业级数据加密),需联系阿里通义实验室协商费用,具体价格因服务内容而异,暂无公开统一标准。此外,若基于WebSailor调用阿里云其他服务(如Qwen-2.5模型API),需按阿里云官方定价支付相关费用。例如,Qwen-2.5-72B模型的输入价格为0.004元/千Token,输出价格为0.012元/千Token。
AI工具和资源推荐-AI全网资源导航-aiguide.cc