Skip to content
← 博客

AI 工具数据安全:每个企业在部署 AI 之前需要评估的内容

AI 工具数据安全是指技术控制、合同保护和运营实践的组合,决定了组织的数据在流经人工智能系统时被处理的安全程度。它涵盖了从数据如何在传输过程中加密到供应商是否使用您的输入来训练未来模型的所有内容。

AI 工具带来的生产力提升是真实的,并且在各行各业都有充分的记录。同样真实的还有那些在组织主要根据能力评估 AI 工具、将安全视为次要考虑的部署之后发生的数据安全事件。员工将机密客户信息粘贴到公共 AI 界面中。在没有签署数据处理协议的情况下,在供应商基础设施上处理客户数据。将专有业务逻辑提交给 AI 编程助手,而其服务条款允许保留该代码用于模型改进。这些场景都不需要复杂的攻击。它们只需要一个组织在快速采用 AI 时没有就其数据去向以及到达后会发生什么的问题提出正确的问题。本指南解释了 AI 工具数据安全实际上需要什么、如何在您的组织正在考虑的工具中进行评估,以及最具影响力的安全决策在实践中是什么样子。

AI agent

为什么 AI 工具会带来标准 IT 控制无法发现的数据安全挑战

新的数据流问题

每个部署 AI 工具的组织都会创建一个新的数据流,而其现有的安全基础设施并非设计用于监控或控制这种数据流。当员工将文档提交给 AI 工具进行摘要、将客户记录提交给 AI 助手进行分析,或将源代码提交给 AI 编程工具进行审查时,这些数据会传输到组织不拥有的基础设施,在组织无法检查的服务器上处理,并可能持久存储在组织没有可见性的日志或训练数据集中。

传统的数据丢失防护工具旨在监控通过已知渠道(电子邮件、文件传输、USB 设备、云存储应用程序)移动的数据。AI 工具代表了一类数据流出,DLP 系统通常不能正确分类,因为流量看起来像合法的 Web 应用程序使用而不是数据泄露。技术路径是对 Web 服务的标准 HTTPS 请求。安全后果是潜在敏感的组织数据离开网络边界,而没有任何管理其他形式数据共享的控制措施。

这不是假设的风险。金融服务、医疗保健、法律和技术行业的组织已记录了员工使用 AI 工具处理本不应离开组织受控环境的数据的事件,后果范围从合规违规到竞争情报暴露,再到当数据处理被披露时对客户关系造成的损害。

标准安全假设失效的地方

AI 工具数据安全需要重新审视几个对传统软件相当适用、但应用于 AI 系统时会失效的假设。

发送给供应商进行处理的数据主要受合同管辖的假设因 AI 系统而变得复杂,因为相同的数据可能用于即时服务之外的目的,特别是模型训练和改进,以用户在未阅读的情况下接受的服务条款所允许的方式。合同管辖服务。服务条款可能允许合同没有明确禁止的数据使用方式。

从系统中删除数据可以删除其中包含的信息的假设,对于数据可能在训练过程中影响模型权重的 AI 系统并不完全适用。通过训练过程编码到模型中的数据无法通过删除原始记录来直接删除。对于在数据删除和被遗忘权方面承担监管义务的组织来说,这造成了传统数据管理实践无法解决的合规复杂性。

供应商持有的安全认证统一适用于其所有产品的假设需要对 AI 供应商进行验证而不是推断,因为企业 AI 产品通常建立在与同一公司提供的消费产品分别认证的基础设施上。供应商涵盖其云基础设施的 SOC 2 认证不会自动扩展到运行在该基础设施上的 AI 助手产品,除非审计范围明确包括它。

审查 AI 安全 评估框架如何解决这些特定于 AI 的数据安全考虑,可帮助组织建立评估流程,以发现传统 IT 安全审查所遗漏的漏洞。

AI agent

AI 工具数据安全的核心维度

传输中和静态数据

AI 工具数据安全的基础层涵盖了在数据在您的系统和 AI 工具基础设施之间移动时如何保护数据,以及在存储在该基础设施上时如何保护数据。这些是大多数安全专业人员首先评估的控制措施,因为它们映射到熟悉的安全概念,并且相对容易评估。

传输中的数据应使用当前的 TLS 标准在您的系统和供应商基础设施之间的每个连接上进行加密。这不仅包括主要的用户界面连接,还包括任何 API 连接、Webhook 回调以及与 AI 工具连接的其他系统的集成。无法确认应用于其数据流中每个连接的加密标准的供应商,在其安全文档中存在需要更深入调查的差距。

静态数据加密涵盖了在供应商基础设施上存储数据时如何保护数据,包括推理日志、对话历史、缓存文档以及 AI 工具维护的任何其他持久存储。使用 AES-256 或同等标准的静态加密是任何企业 AI 工具的基线期望,围绕该加密的密钥管理实践(特别是谁控制密钥以及在什么条件下可以访问)与加密标准本身同样重要。

对于具有最高数据安全要求的组织,客户管理的加密密钥(您的组织控制用于加密供应商基础设施上的数据的密钥)提供了标准供应商管理的加密无法提供的有意义的额外控制层。一些企业 AI 工具供应商在其最高服务级别提供此功能。

数据保留和训练使用

除了加密之外,对于大多数 AI 工具部署而言,最具影响的两个数据安全问题是供应商保留通过其系统处理的数据多久,以及这些数据是否用于训练或改进其模型。

保留实践因供应商和级别而异。一些消费级 AI 工具默认无限期保留对话历史。一些企业级别为调试和质量目的保留推理日志一段时间。一些供应商提供零保留配置,即除了即时推理请求之外不存储任何数据。正确的保留配置文件取决于您的数据敏感性和监管要求,但任何保留都会造成一个暴露窗口,在部署之前需要理解并在合同中加以定义。

训练数据使用是最直接影响通过 AI 工具处理专有或敏感信息的组织的问题。服务条款允许使用提交的内容来改进其模型的供应商,实际上是要求其客户将专有信息贡献给一个共享资源,这最终可能使使用同一平台的竞争对手受益。与主要 AI 供应商的企业协议几乎普遍禁止训练数据使用作为标准条款,但组织需要明确确认这一点,而不是假设。

数据安全维度需要确认的内容为何重要
传输加密所有连接的 TLS 版本和覆盖范围防止传输过程中的拦截
静态加密加密标准和密钥管理方法保护存储的数据免受基础设施漏洞影响
保留期按数据类别的具体保留时长定义每次交互之外的暴露窗口
训练数据使用明确禁止,无选择加入例外防止专有数据训练共享模型
日志访问控制供应商方面谁可以访问推理日志以及在什么条件下限制内部人员对您组织数据的访问
数据删除根据请求或合同结束时的删除流程和时间表支持遵守删除义务
子处理者披露有权访问您数据的第三方完整列表揭示通过供应商的供应商造成的间接数据暴露

访问控制和身份验证

您组织内 AI 工具部署的安全性既取决于内部如何管理访问,也取决于供应商的外部安全控制。一个具有强大供应商安全性但与您的身份管理基础设施没有集成的 AI 工具会造成访问治理缺口,通过绕过管理其他每个系统的控制的通道暴露相同的组织数据。

企业 AI 工具部署应与您组织的单点登录基础设施集成,以便访问受与其他组织系统相同的预置和取消预置流程管辖。当员工离开组织或更改角色时,他们的 AI 工具访问应通过处理其他系统访问的相同工作流程移除或调整,而不是通过可能滞后的单独手动流程。

AI 工具内基于角色的访问控制应限制不同用户类别可以向系统提交什么、工具可以从中检索什么数据源,以及工具可以生成或导出什么输出。最小权限原则与适用于任何其他组织系统一样直接适用于 AI 工具访问,而为所有用户配置统一广泛访问的 AI 工具的组织正在接受范围访问控制可以防止的数据暴露风险。

了解围绕身份集成和访问控制的 AI 架构 决策如何影响 AI 工具部署的实际安全态势,有助于组织根据其实际风险状况配置其系统,而不是接受为通用用途设计的默认配置。

IMAGE SUGGESTION: A clean diagram showing an AI tool deployment within a corporate network boundary with visible access control layers including authentication, role permissions, and data classification filters between users and the AI system, professional security architecture diagram style, no text overlays.

AI 如何被用于改善数据安全

AI 和数据安全之间的关系是双向的,值得讨论 AI 如何积极加强安全计划的方式,而不仅仅是为其创造新的挑战。

由机器学习驱动的威胁检测系统分析网络流量、用户活动和系统日志中的行为模式,以识别基于规则的检测所遗漏的异常情况。AI 驱动的安全监控系统了解您特定环境中的正常情况,并发现需要调查的偏差,既减少了浪费分析师时间的误报率,又减少了允许真正威胁未被察觉的漏报率。

使用自然语言处理的数据分类工具自动识别文档、电子邮件和通信中的敏感内容,其规模和一致性是手动分类无法匹敌的。当 AI 可以在文档进入系统时自动将其分类为包含个人健康信息、财务数据或法律特权内容时,该分类可以触发适当的处理控制,而无需手动审查每个文档。

使用 AI 的安全操作平台协助分析师进行调查工作流程,跨多个数据源关联事件,呈现相关的历史上下文,并根据评估的严重性对警报队列进行优先级排序。以前将大部分时间花在警报分类上的分析师,现在花更多时间在真正需要人类判断的复杂调查上,而 AI 处理支持该分类的模式识别工作。

AI 应用于安全的这些应用表明,两者之间的关系并非对立。AI 工具创造了需要仔细管理的数据安全挑战。AI 能力也提供了如果没有它就不切实际的安全改进。最有效地驾驭这一点的组织将两个维度都视为真实的,并同时解决它们,而不是只关注风险而忽略防御性应用。

审查企业安全平台中的 AI 功能 如何实施 AI 驱动的检测和响应能力,有助于组织评估 AI 安全投资是否以补充其 AI 工具治理计划的方式增强其防御态势。

构建 AI 工具数据安全计划

您必须首先解决的清单问题

组织无法保护他们尚未绘制的 AI 工具数据流。任何 AI 工具数据安全计划的起点都是当前在整个组织中使用的 AI 工具的完整清单,包括那些由个别团队或员工在没有中央 IT 参与的情况下采用的工具。

这个清单一直发现比中央 IT 团队预期的更多的工具,因为 AI 能力已经以用户可能无法识别为独立 AI 工具使用的方式嵌入到广泛使用的生产力应用程序、通信平台和业务软件中。文字处理器中内置的 AI 写作助手、电子邮件客户端中的智能回复功能、文档管理系统中的自动摘要和 CRM 中的预测分析都代表了对组织数据的 AI 处理,即使它们看起来都不像独立的 AI 工具采用,也属于安全评估范围。

一旦清单存在,每个工具都需要根据上述讨论的数据安全维度进行评估,并被批准用于特定数据类别、有限制地批准,或在安全审查待定期间禁止。目标不是消除 AI 工具的使用,而是确保您组织使用的每个 AI 工具都根据您的数据安全要求进行了评估,而不是仅根据能力采用。

需要落实的合同保护

技术安全控制保护供应商基础设施上的数据。合同保护定义了管理这些数据处理方式的法律义务,以及当这些义务未能履行时您的组织有哪些追索权。两者都是必要的,任何一个都不能替代另一个。

在任何组织数据流经特定 AI 工具之前,需要落实涵盖正在部署的 AI 工具的数据处理协议。对于处理欧盟个人数据的组织,这是 GDPR 下的法律要求。对于处理受保护健康信息的医疗保健组织,HIPAA 要求商业伙伴协议。对于金融服务组织,可能适用行业特定的数据处理协议。除监管要求外,与 AI 供应商的数据处理协议还定义了数据保留限制、训练数据禁令、违规通知义务和数据删除程序,这些都保护组织利益,无论监管授权如何。

合同保护涵盖内容需要它的组织
数据处理协议处理欧盟个人数据的 GDPR 合规性任何处理欧盟个人数据的组织
商业伙伴协议受保护健康信息的 HIPAA 合规性医疗保健组织及其供应商
训练数据禁令明确禁止使用数据训练模型的合同条款所有处理专有或敏感数据的组织
违规通知承诺供应商在规定时间内通知的义务所有组织,GDPR 下通常为 72 小时
数据删除协议供应商根据请求或合同结束时删除数据的承诺承担数据删除义务的组织
子处理者管理供应商承诺与其供应商保持安全具有监管链要求的组织

一份关于为数据安全构建 AI 供应商协议的全面 AI 指南,帮助组织建立合同框架,在 AI 工具关系的整个生命周期内保护其利益,而不仅仅是在初始部署时。

影子 AI 问题及如何解决

影子 AI,即员工在中央批准和管理的部署之外使用 AI 工具,是大多数广泛采用 AI 的组织中未管理数据安全风险的最重要来源。在云采用时代造成影子 IT 风险的相同动态正在 AI 工具中上演,通常更快,数据安全影响更为重大,因为提交给 AI 工具的数据经常包含安全计划旨在保护的确切组织信息。

对影子 AI 最有效的应对结合了三个要素。通过监控 AI 相关网络流量和应用程序使用的可见性,使安全团队具备识别未经授权工具使用所需的意识,以防其造成重大暴露。一个清晰且可访问的批准工具计划通过确保需要 AI 能力的员工拥有满足其实际需求的批准选项,减少影子采用的动机。以及一个对已使用未经批准工具的员工的非惩罚性报告机制,鼓励自我披露,帮助组织识别和遏制现有的暴露,而不是通过事件发现。

主要通过禁止而不是提供来应对影子 AI 的组织发现,对 AI 能力的潜在需求不会消失,它会转移到个人设备和个人账户,在那里组织的可见性和控制更加有限。

需要了解的事项

关于 AI 工具数据安全的几个重要现实,组织通常会比他们希望的更晚发现:

同一 AI 工具的消费版和企业版具有根本不同的安全属性。同一供应商的 AI 工具的免费或个人版本及其企业等效版本在数据保留实践、训练数据使用、加密标准和可用合同保护方面通常存在显著差异。即使消费版本可用且功能正常,对企业版本的评估对于业务数据来说也不是可选的。

需要验证安全认证的时效性和范围。一份十八个月前的 SOC 2 报告,或者一份涵盖基础设施但不涵盖 AI 产品层的报告,告诉您的信息比看起来要少。在依赖认证作为当前安全态势的证据之前,始终确认报告期、审计范围边界和涵盖的特定产品。

30% 规则有用地适用于数据安全治理。AI 工具应被信任以自主处理大约 30% 的数据处理工作流程,特别是涉及较低敏感性数据类别且具有完善安全控制的工作流程,而涉及更敏感或受监管数据类别的 70% 则需要额外的人工监督、更严格的工具选择标准或提供更强大安全保证的替代处理方法。

API 和集成连接会成倍增加您的数据暴露面。当 AI 工具与您的电子邮件、日历、文档存储或 CRM 系统集成时,它会获得对这些系统完整数据环境的访问权,而不仅仅是您主动提交给它的特定数据。对将深度集成的 AI 工具的安全评估需要全面涵盖集成的数据访问。

针对 AI 数据安全事件的事件响应计划需要特定准备。与 AI 数据安全事件相关的证据类型,包括推理日志、API 访问记录和供应商基础设施事件日志,与传统事件响应剧本所围绕构建的网络和系统日志不同。在事件发生之前,将 AI 特定的证据收集和供应商协调程序构建到您的事件响应计划中,可大大提高您在需要时的响应能力。

由 AI 基础设施触发的国际数据传输在许多司法管辖区需要特定的法律机制。其推理基础设施在您的监管管辖范围之外运行的 AI 工具,可能会触发跨境数据传输要求,需要通过标准合同条款、充分性决定或同等机制来满足,然后受监管的数据才能合法地通过它处理。

将 AI 工具数据安全视为竞争基础

构建强大 AI 工具数据安全计划的组织发现,这项投资带来的回报超出了风险降低。企业客户越来越要求负责任的 AI 数据处理证据作为开展业务的条件。审查 AI 治理计划的监管机构将数据安全评估为核心组成部分。产生严格 AI 工具安全评估的组织纪律也倾向于产生更好的 AI 工具选择决策,因为以安全为重点的评估揭示了供应商关系质量、合同保护可用性和运营成熟度,这些因素超越了安全维度,预示着良好的供应商合作伙伴关系。

AI 工具数据安全不是组织有时将其视为的、阻碍 AI 富有成效采用的障碍。它是使有信心、可扩展的 AI 采用成为可能的基础。从一开始就认识到这一区别并将安全评估构建到其 AI 工具采用流程中的企业,可以避免事件、合规暴露和补救成本,这些成本使延迟的安全关注比主动治理要昂贵得多。

常见问题

哪种 AI 最适合数据安全?

对于业务用途数据安全态势最强的 AI 工具是来自具有当前 SOC 2 Type 2 认证、可用数据处理协议、明确训练数据禁令和明确数据保留限制的供应商的企业级部署,Microsoft Azure AI、AWS Bedrock 和 Google Cloud AI 始终满足对于有重大合规要求的组织的这些标准。 对于需要最强数据安全保证的组织,在私有基础设施上自托管的开源模型通过确保数据从不离开组织自己的基础设施,完全消除了供应商方面的数据处理风险。

AI 如何用于数据安全?

AI 用于数据安全,以为威胁检测系统提供动力,这些系统识别网络和用户活动中的异常行为模式,自动化数据分类以在内容创建点触发适当的处理控制,协助安全分析师进行警报分类和调查工作流程,监视通信和交易中的策略违规行为,以及检测基于规则的系统遗漏的潜在数据泄露尝试。 当与管理 AI 工具本身引入的数据安全风险的治理控制一起部署时,AI 在安全方面的这些防御性应用代表了组织安全态势的有意义的改进。

什么是 AI 的 30% 规则?

AI 的 30% 规则是这样一个原则:AI 系统应自主处理大约 30% 的工作流程,特别是自动化提供明确效率益处的高频率、定义明确的部分,而人工判断和问责制涵盖其余 70%,涉及重大决策、敏感数据处理和承担组织责任的输出。 具体应用于 AI 工具数据安全,此原则有助于组织确定哪些数据处理工作流程适合 AI 工具自动化,哪些需要更高敏感性数据所需的额外监督、更严格的工具选择或替代处理方法。

什么是 AI 安全工具?

AI 安全工具是使用人工智能和机器学习技术来提高组织安全计划的检测、预防和响应能力的软件产品,包括 AI 驱动的威胁检测平台、行为分析系统、自动化漏洞扫描器、智能安全信息和事件管理系统以及 AI 辅助的事件响应平台。 它们不同于保护 AI 工具的问题,后者解决了在业务工作流程中部署的 AI 系统的数据安全实践,尽管这两个维度都与具有成熟 AI 采用的组织相关。

AI 工具的 5 种类型是什么?

业务环境中 AI 工具的五个主要类别是:产生文本、代码、图像和其他内容的生成式 AI 工具;识别数据中模式和洞察的分析式 AI 工具;在没有持续人工指导的情况下执行定义工作流程的自动化 AI 工具;通过自然语言界面与用户交互的对话式 AI 工具;以及基于历史模式预测结果的预测式 AI 工具。 每个类别都根据其处理的数据性质、运行所在的基础设施以及它产生的输出,创造了独特的数据安全考虑因素,这就是为什么 AI 工具数据安全评估需要解决每个类别的特定风险概况,而不是将所有 AI 工具视为呈现等效的安全考虑因素。