JoySafety : 京东开源的大模型安全框架
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
主要介绍
JoySafety是京东于2025年9月正式开源的大模型安全框架,旨在为企业提供免费、可扩展的生产级内容安全与攻击防护解决方案。该框架经过京东内部AI导购、物流客服、医疗问诊等数百个业务场景的验证,日均调用量达亿级,攻击拦截率超过95%,支持从输入到输出的全链路实时监控,已成为京东大模型应用的核心安全底座。其开源遵循Apache-2.0协议,推动AI安全从“封闭自建”走向“开放协同”。

功能特点
- 全链路防护:覆盖训练数据安全、大模型安全测评、Prompt实时检测、生成内容实时识别四道防线,支持内容安全、业务安全与信息风险的全程守护。
- 多维度检测:支持敏感词识别、提示词注入检测、逻辑缺陷分析等15类风险检测,涵盖数据违规获取、模型幻觉、恶意使用等场景。
- 流式输出控制:通过“流式输出检测+撤回”机制,在AI生成内容的同时进行毫秒级风险扫描,避免传统“生成后审核”的体验中断。
- 柔性策略矩阵:提供阻断、代答、纠偏等多种处置方式,支持业务场景策略精细化配置,平衡安全与用户体验。
优缺点
- 优点:
- 高效低成本:日均亿级调用下攻击拦截率超95%,算力成本较传统方案降低90%以上。
- 灵活易用:Docker一键部署,支持主流大模型开箱即用,5分钟内完成安全系统搭建。
- 场景适配强:覆盖电商、金融、医疗等30+行业场景,支持30余种安全风险识别。
- 缺点:
- 多模态支持有限:当前版本以文本检测为主,图片、视频等多模态防护需后续升级。
- 极端攻击防御待优化:对高度变种的对抗样本仍需结合人工审核提升准确率。
如何使用
- Docker部署:通过Docker命令一键拉取镜像,快速搭建安全防护系统。
- 策略配置:在管理界面选择业务场景(如电商客服、医疗问诊),配置风险类型(如提示词注入、敏感信息泄露)及处置方式(阻断、代答)。
- API集成:调用JoySafety的RESTful API,将安全检测嵌入现有大模型应用流程,无需修改核心代码。
- 实时监控:通过可视化仪表盘查看攻击拦截记录、风险分布及系统性能指标,支持导出安全报告。
框架技术原理
- 三层递进式检测架构:
- 高效过滤层:轻量级模型与规则库初筛无害文本,保障系统吞吐量。
- 语义检测层:BERT类双引擎协同检测,精准识别色情、暴力内容及提示词注入攻击。
- 策略编排层:基于DAG(有向无环图)动态组合检测模块,支持业务定制化防御。
- AI对抗AI机制:通过自动衍生高质量测试集模拟攻击,利用三层检测能力生成安全评估报告及整改建议,实现全流程自动化体检。
- 流式输出检测:在AI生成内容过程中实时扫描风险,毫秒级内完成识别与处置,避免用户体验中断。
创新点
- “不可能三角”破解:通过智能模型与柔性策略融合,同时实现高风险拦截率、低误报率及业务无感知。
- 业务定制化防御:支持基于DAG的策略编排,企业可自由组合检测模块,实现从通用防御到行业定制的平滑升级。
- 开源生态构建:首次开源生产级大模型安全框架,推动行业从“封闭自建”转向“开放协同”,降低中小企业安全门槛。
评估标准
- 攻击拦截率:在提示词注入、歧视性内容等关键风险维度的拦截效果。
- 系统响应时间:平均检测延迟是否控制在50毫秒以内,满足高并发业务需求。
- 场景适配性:在电商、金融、医疗等不同行业的风险识别准确率。
- 资源消耗:日均亿级调用下的CPU/内存占用率及算力成本。
应用领域
- 电商行业:AI导购、物流客服的内容安全防护,防止恶意诱导与信息泄露。
- 金融领域:销售助手、法务咨询的合规性审查,拦截敏感信息泄露。
- 医疗健康:医疗问诊的生成内容审核,确保符合伦理与法规要求。
- 企业服务:商家工作台、安全问答的攻击防护,提升系统可靠性。
项目地址
- GitHub开源仓库:https://github.com/jd-opensource/JoySafety
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...