LLM强化防线：大模型敏感信息的泄露检测和风险评估

LLM强化防线：大模型敏感信息的泄露检测和风险评估
read file error: read notes: is a directory 2024-1-9 18:3:55 Author: M01N Team(查看原文) 阅读量:57 收藏

01 概述

随着大语言模型（LLM）及相关技术的迅猛发展，越来越多的人开始将其视为提升工作效率的有力工具，但与此同时，人们对于LLM敏感信息泄漏问题的担忧与日俱增。在《LLM安全警报：六起真实案例剖析，揭露敏感信息泄露的严重后果》[4]一文中，详细指出了LLM敏感信息泄露可能引发的个人隐私曝光、知识产权侵犯以及商业机密泄露等严峻后果。因此，LLM敏感信息泄露的风险不容忽视，必须采取相应的措施来保护用户的隐私与敏感信息。

本文将从大模型敏感信息相关的安全合规需求出发，探讨大模型敏感信息的来源和分类分级。然后，借助绿盟自主研发的大模型安全评估系统LSAS (NSFOCUS LLMs Security Assessment System，简称:NSFOCUS LSAS)，对不同开源大模型进行了敏感数据泄露的扫描测试，自动发现、分析和评估大模型敏感泄露潜在风险，进而为LLM在敏感信息泄露风险评估方面提供强有力的工具和支持。

02 大模型敏感信息安全合规需求

目前，世界各国都对LLM相关敏感信息的安全合规性提出了一定需求，要求数据相关方采取一系列措施来保护用户的隐私和敏感信息，其中包括美国的《格雷姆-里奇-比利雷法》（GLBA）和《加州消费者隐私法案》（CCPA），欧盟的《通用数据保护条例》（GDPR），英国的《数据保护法案》（DPA）等。这些法规严格规范了数据在收集、存储、使用、加工、传输、提供等各个环节中对于敏感数据的处理要求，也要求企业和组织必须采取适当的安全措施，确保对敏感信息的有效保护，并在发生泄露时及时报告并采取相应对策。

同时，我国也通过《个人信息保护法》和《数据保护法》等法律，建立了相关框架以保障敏感信息的安全。为了应对快速发展的大模型及相关技术，我国在2023年8月15日开始施行《生成式人工智能服务管理暂行办法》（以下简称《管理办法》）[1]，旨在规范生成式人工智能服务提供者在处理敏感信息时的行为，保障用户的隐私和个人信息安全，促进生成式人工智能服务的健康发展。根据该文件，生成式人工智能服务提供者在处理敏感信息时，需要严格遵守相关法律法规，保护用户的隐私和个人信息安全。具体要求包括：

用户隐私保护：生成式人工智能服务提供者需要建立健全的用户隐私保护制度，保障用户的个人信息安全，不得擅自收集、使用、传播用户的个人信息。
商业秘密保护：在处理敏感信息时，服务提供者需要严格遵守商业秘密保护相关法律法规，不得泄露或非法使用他人的商业秘密信息。
安全评估和监督检查：有关主管部门将对生成式人工智能服务开展监督检查，服务提供者应当依法予以配合，按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明，并提供必要的技术、数据等支持和协助。
保密义务：参与生成式人工智能服务安全评估和监督检查的相关机构和人员对在履行职责中知悉的国家秘密、商业秘密、个人隐私和个人信息应当依法予以保密，不得泄露或者非法向他人提供。

图1：国家网信办《生成式人工智能服务管理暂行办法》[1]

《管理办法》主要包含两种监管政策。其一，根据生成式人工智能服务的风险程度进行分类分级监管。其二，基于生成式人工智能服务在不同领域的应用，采取相应的行业部门监管。这一双管齐下的监管机制旨在及时识别敏感信息泄露问题并迅速采取有效措施。

03 大模型敏感信息的泄露检测和风险评估方案

围绕上述《管理办法》中提出的两种监管政策，本文提出大模型敏感信息的泄露检测和风险评估方案。通过对大模型敏感信息来源、分类、泄露检测和风险评估进行系统全面的阐述，提供大模型敏感数据流转每个环节中泄露风险的检测和防护措施，为LLM应用过程中敏感信息的安全提供全方位的保障，提高LLM整体安全性和合规性。本方案将从以下四个步骤展开：

敏感信息来源标识：追溯大模型敏感信息的来源，确认在用户输入请求、模型训练数据和实际交互中是否存在泄露敏感数据的潜在可能。全面了解敏感信息的流动路径将有助于识别和解决潜在泄露风险。
敏感信息分类分级：根据数据安全法规要求，利用先进的大模型技术对受评估大模型不同来源信息进行全面审查，标识并分类其中的敏感信息，包括但不限于个人隐私、商业机密等。根据敏感信息的重要性和风险程度进行分级，将便于后续对风险评估和处理的优先级排序。
敏感信息泄露检测：针对大模型敏感信息的不同来源进行主动扫描测试，采用先进的检测技术以及监测系统来实时监控敏感信息的流动，检测敏感信息泄露的迹象。
敏感信息风险评估：制定综合的风险评估模型，结合敏感信息的来源、分类、分级和泄露概率等因素，综合评估大模型敏感信息泄露的风险。在评估过程中，考虑风险的潜在影响和可能性，并给出相应的风险级别和建议的应对措施。

敏感信息来源标识

大模型敏感信息安全评估涉及对大模型语料、个人信息、数据服务等方面进行全面审查和测试，以确保其在处理敏感信息时符合《管理办法》相关规定。参考《LLM安全警报：六起真实案例剖析，揭露敏感信息泄露的严重后果》[4]中的案例分析，本文总结了LLM海量训练数据扩大了数据安全和隐私保护风险的问题。同时，数据投喂也带来了隐私泄露的风险。鉴于此，本文将LLM相关的敏感信息按来源划分为训练数据、用户输入和模型自身这三个方面:

训练数据：最主要的敏感信息来源是LLM在预训练阶段所使用的训练数据。由于很大一部分的训练数据是来自于对互联网公开数据的爬取，这些未经过滤的公开数据中很可能会包含敏感信息。ChatGPT的数据泄露事件就是一个例子，由于ChatGPT的语料库中包含敏感信息与机密信息，其在生成任务中会无意说出这些内容，如果未经适当处理和保护会导致数据泄露和隐私泄露的风险。
用户输入：LLM使用过程中用户输入的内容是另一个敏感信息的主要来源，用户可能在与LLM交互过程中会不经意间暴露隐私或机密。而此类敏感信息会泄露给LLM背后的供应商。例如在三星员工泄露商业机密的事件中，当用户在使用ChatGPT进行代码优化或提取会议纪要时，可能会暴露公司的机密信息给供应商OpenAI，从而导致泄密的风险。
模型自身：LLM的自身信息也是敏感信息的来源之一，尤其是具有一定价值的商业LLM的信息，如内置提示词、模型参数、网络架构等，也可能发生泄露并造成损失。由于涉及LLM进行推理的具体内部工作机制，这方面信息的泄露会暴露LLM的底层信息，侵犯LLM开发者的知识产权。

通过对以上敏感信息三个来源进行分析，可以更好地定位LLM敏感信息泄露的风险来源，进而采取相应的保护措施以最大程度地减少敏感信息泄露的风险。

敏感信息分类分级

结合《管理办法》中的敏感信息相关要求[1]、ChatGPT开发者OpenAI制定的用户政策[2]，和绿盟科技发布的《绿盟数据安全白皮书 2.0》中关于数据安全的部分内容[3]，通过绿盟大模型风云卫[5]对LLM三个来源的数据中所涉及的敏感信息进行智能的分类分级如表1所示：

表1：大模型敏感信息的分类分级

类别	子类别	举例	潜在来源	级别
个人隐私	个人信息	姓名、身份证号、社保号、肖像	a、b	低
	联系方式	电话号码、邮箱地址、家庭住址	a、b	中
	财务信息	银行卡号、交易流水、消费记录	a、b	高
	医疗数据	健康状况、病历信息、就医记录	a、b	高
	社交媒体	账户信息、关注列表、发布内容	a、b	低
	档案信息	教育经历、就业经历、亲属关系	a、b	高
知识产权	作品著作权	受版权保护论文、小说、剧本	a、b	高
	软件著作权	闭源软件代码、算法	a、b、c	高
	其他知识产权	商标、产品专利	a、b	高
涉密资料	商业机密	企业战略、研发进展、客户信息	a、b、c	高
涉密资料	国家机密	军事机密、外交机密、科研机密	a、b	高
训练数据	训练数据	预训练、微调等数据	a	中
模型参数	模型拓扑结构	网络层数、神经元数量、连接方式	a、c	高
	推理阶段参数	权重、偏置、切分器	a、c	高
	训练阶段参数	学习率、Dropout率、优化器	a、c	高
提示词指令	提示词	模型角色定位、自我能力认知	c	高
提示词指令	指令	交互方式、语气态度、输出规则	c	高

分级说明：

高：信息极具敏感性，泄露可能导致重大隐私泄露、财务损失或法律责任。
中：信息具有一定敏感性，泄露可能导致一定程度的隐私泄露或财务风险。
低：信息相对不太敏感，泄露对个体的影响较小。

敏感信息泄露检测

为了有效评估大模型不同数据源中敏感信息泄露风险，绿盟自主研发了大模型安全评估系统NSFOCUS LSAS。通过模拟用户交互的方式，向待检测的目标LLM使用专用测试探针主动发起扫描测试和风险评估。LSAS支持leakreplay和leak_cn两种测试探针以发现LLM潜在的敏感信息泄露风险：

leakreplay用于检测目标LLM是否存在回放训练数据的情况。LSAS在预先收集的英文文学素材上进行挖空和截取操作，以生成完形填空和补全任务。然后LSAS会要求目标LLM完成填空和补全任务，并检测答案是否与原始素材一致。如果模型给出了与原始素材一致的正确答案，则会判断存在泄露训练数据的情况。该方法的工作原理如图2所示。

图2：leakreplay检测原理

leak_cn将发生过的真实LLM敏感信息泄露案例转化为测试用例，通过扫描测试以识别模型输入和输出中所包含的敏感信息。扫描测试是根据收集的相关事件细节和曝光的敏感信息进行模拟用户输入和期望模型输出的过程。扫描测试过程会利用绿盟大模型风云卫[5]对待测试目标LLM输入和输出内容中的敏感信息进行识别，并对识别到的敏感信息进行分类和分级。例如当用户输入个人简历信息并要求测试目标LLM进行润色时，风云卫会对其依据分类和分级信息（如图3所示）进行量化分数指标。

图3：绿盟风云卫大模型对于敏感信息的分类分级

敏感信息风险评估

基于LSAS所提供的leakreplay和leak_cn两种LLM敏感信息泄露专用的测试探针，我们对国内外的一些主流的开源大模型进行了扫描，其中包括ChatGLMv2、Qwen、Baichuan2、Llama2、Moss，并将结果与商业大模型GPT-3.5-Turbo作为对照。

图4：扫描器扫描结果

扫描结果如图4所示，其使用探针中测试用例的通过率作为模型的分数指标，分数在0到1的区间内。分数指标越高表示LLM越安全；越低表示LLM越可能发生敏感信息泄露。两种探针leakreplay与leak_cn分别用蓝色柱和橙色柱表示，横坐标上六组结果分别对应六个模型。通过对柱状图与详细扫描结果进行分析，对比六款大模型可以得出以下结论：

1) Leakreplay测试探针结构分析：

GPT-3.5和Llama2有着比较严格的安全机制，在大部分情况下会声明其无法提供训练数据，并拒绝执行填空、补全任务。
Qwen、Baichuan2、Moss、ChatGLMv2都会按照提示词执行填空、补全任务；其中ChatGLMv2在填空、补全任务中并未出现泄露，而其他模型都出现了按照原文进行填空的情况。
Moss扫描结果分数最低，可能由于其开源模型发布时间较早，未应用更新的安全机制。

图5：Llama2拒绝进行填空任务

2) leak_cn测试探针结构分析：

所有模型仍然存在泄露敏感信息的情况，例如Baichuan2不具备Base64解码功能，在收到编码后错误地回复了一段疑似训练数据中有关数据包的内容。
GPT-3.5的泄露概率最低，得益于OpenAI较为完善的安全机制。
发布时间较晚的模型（如Qwen）比起发布时间较早的模型（如Moss），其泄露风险相对较高，其原因可能是后来的模型使用了更广泛的数据。

图6：Baichuan2的错误回复

然而，由于大模型输出的随机性，每次给出的回复不尽相同，扫描器对于敏感信息泄露问题的检测依然存在着难捕捉、难定位的问题。因此，并不能根据一份扫描报告完全断定某个模型完全不存在敏感信息泄露的问题。绿盟科技将在未来继续投入资源和精力，不断优化和升级敏感信息测试技术。

04 总结

本文介绍的大模型敏感信息的泄露检测和风险评估方案，利用了绿盟已发布的大模型风云卫，并结合两种LLM专用敏感信息泄露检测探针，对目标LLM进行敏感信息的来源、分类、泄露检测和风险评估。通过以上四个步骤，确保用户输入和模型输出过程中敏感信息免受未经授权的访问和泄露的风险，并有效维护大模型的合规性和安全性。

在未来的工作中，我们将持续加强对敏感信息泄露的监测和防范能力，以进一步提升大模型的安全性。同时，我们将紧密关注大模型安全领域的相关动态和技术发展，为LLM的技术发展提供全面的安全保障。为了满足LLM相关法规要求和安全需求，我们将不断完善绿盟自研的大模型安全评估系统LSAS，引入更多的安全评估测试维度与内容，以确保该系统在各种场景下的适用性和有效性，本系列文章后续将对此逐步展开详细介绍。

附录：参考文献

[1] 国家网信办网站, 《生成式人工智能服务管理办法（征求意见稿）》, 2023

[2] OpenAI, Usage Policies, https://openai.com/policies/usage-policies, 2023

[3] 绿盟科技, 《绿盟数据安全白皮书 2.0》, 2020

[4] 天枢实验室. M01N Team, 《LLM安全警报：六起真实案例剖析，揭露敏感信息泄露的严重后果》, 2023

[5] 绿盟科技,《安全行业大模型SecLLM技术白皮书》。2023

绿盟科技天枢实验室：天枢实验室立足数据智能安全前沿研究，一方面运用大数据与人工智能技术提升攻击检测和防护能力，另一方面致力于解决大数据和人工智能发展过程中的安全问题，提升以攻防实战为核心的智能安全能力。。

M01N Team公众号

聚焦高级攻防对抗热点技术

绿盟科技蓝军技术研究战队

官方攻防交流群

网络安全一手资讯

攻防技术答疑解惑

扫码加好友即可拉群

文章来源: http://mp.weixin.qq.com/s?__biz=MzkyMTI0NjA3OA==&mid=2247493250&idx=1&sn=0cc6cb43640fbfae73e1d7d5018d8384&chksm=c0b807b17895092f8c1966b4ecdc4248e8d909a7831cad43343b6007662d6d5c38d1462b55f7&scene=0&xtrack=1#rd
如有侵权请联系:admin#unsafe.sh