生成性人工智能时代的数据治理大数据博客

2026-01-27 14:35:17

生成式人工智能时代的数据治理

by Krishna Rupanagunta Raghvender Arni 和 Imtiaz Sayed 于 2024年2月29日发布在 AWS 大数据，企业治理与控制，生成式人工智能，中级 (200) 永久链接评论

关键要点

生成式人工智能的成功依赖于强大的数据治理策略。数据治理在确保企业所用数据的安全和合规性方面至关重要。处理结构化和非结构化数据的挑战日益突出，必须实施全面的治理体系以提升生成式AI的响应的准确性和相关性。

数据是你的生成式人工智能的差异化因素，成功的生成式人工智能实施取决于综合的数据战略和全面的数据治理方法。与大型语言模型LLM一起工作时，企业需要考虑数据质量和隐私，以推动负责任的人工智能。然而，来自孤立源的企业数据，以及缺乏数据集成策略，给生成式人工智能应用的数据提供带来了挑战。需要针对数据管理的端到端战略，在整个旅程中，确保从数据的接收、存储、查询到分析、可视化及运行人工智能AI和机器学习ML模型的每一步，都要贯彻数据治理。

在本文中，我们探讨生成式人工智能应用数据管道的数据治理需求，这是治理生成式AI模型所使用数据的关键组成部分，确保安全、透明的方式来提高其对用户提示的响应的准确性和相关性。企业通过使用专有数据，采用诸如检索增强生成RAG、微调，以及与基础模型的持续预训练等方法，来实现这一目标。

数据治理在这些方法中扮演了关键角色，我们发现在两个新兴领域中尤为重要。首先，许多 LLM 用例依赖于企业知识，这需要从非结构化数据如文档、记录和图像中提取，而不仅仅是来自数据仓库的结构化数据。非结构化数据通常存储在孤立的系统中，格式各异，通常没有与结构化数据一样严格的管理和治理。其次，生成式人工智能应用所涉及的数据交互数量通常高于传统应用，要求在生成式AI用户工作流中实施数据安全、隐私和访问控制政策。

在本文中，我们将探讨如何在 AWS 上构建生成式人工智能应用程序的数据治理，重点关注结构化和非结构化企业知识源，以及在用户请求响应工作流程中数据治理的作用。

用例概述

让我们探索一个客户支持人工智能助手的示例。以下图示展示了启动于用户提示的典型对话工作流程。

该工作流程包括以下关键的数据治理步骤：

提供用户访问控制和安全政策。根据相关数据提取权限的访问政策，并根据提示用户的角色和权限过滤结果。执行数据隐私政策，例如个人可识别信息PII遮蔽。强制实施细粒度访问控制。向用户角色授予敏感信息和合规政策的权限。

为了提供包含企业背景的响应，每个用户提示需要结合来自数据仓库的结构化数据和来自企业数据湖的非结构化数据的洞察进行增强。在后端，定期刷新企业数据湖的批量数据工程流程需要扩展，以便摄取、转换和管理非结构化数据。在转换过程中，必须确保数据隐私例如，PII遮蔽。最后，访问控制政策还需要扩展到非结构化数据对象和向量数据存储。

让我们看看数据治理如何应用于企业知识源数据管道和用户请求响应工作流程。

企业知识：数据管理

下图总结了数据管道和应用数据治理工作流程的数据治理考虑。

在上述图中，数据工程管道包括以下数据治理步骤：

通过数据演变创建和更新目录。实施数据隐私政策。按数据类型和来源实施数据质量。连接结构化和非结构化数据集。对结构化和非结构化数据集实施统一的细粒度访问控制。

让我们更详细地探讨数据管道中的一些关键变化，如数据目录编制、数据质量以及向量嵌入安全性。

数据可发现性

与管理良好的行和列中的结构化数据不同，非结构化数据作为对象进行存储。为了使用户能够发现和理解数据，第一步是基于在源系统中生成和捕获的元数据构建一个全面的目录。这始于将对象例如文档和记录文件从相关源系统摄取到数据湖中的原始区域，以其各自的本地格式如前面的图示所示。从这里提取对象元数据如文件所有者、创建日期和机密级别，并利用 Amazon S3 的能力进行查询。元数据因数据源而异，审查字段并在需要时推导必要字段以完成所有必需的元数据非常重要。例如，如果源应用程序未按文档级别标记诸如内容机密性之类的属性，则可能需要在元数据提取过程中推导此属性并将其作为数据目录中的一个属性添加。摄取过程需要持续捕获对象更新更改、删除以及新对象。有关详细的实施指南，请参见使用 AWS AI/ML 和分析服务进行非结构化数据管理和治理。为进一步简化业务术语和技术数据目录之间的发现和自省，您可以使用 Amazon DataZone 供业务用户发现和共享横跨数据孤岛存储的数据。

数据隐私

企业知识源通常包含个人识别信息PII和其他敏感数据如地址和社会保障号码。根据您的数据隐私政策，这些元素需要在使用之前进行处理例如遮蔽、标记或删除。从 Amazon S3 的原始区域，必须在对象被下游生成式人工智能模型使用之前进行处理。这里的一个关键要求是 PII识别与遮蔽，可以使用 Amazon Comprehend 来实施。需要记住的是，在不影响数据上下文的情况下，严格剥离所有敏感数据并不总是可行的。语义上下文是推动生成式人工智能模型输出的准确性和相关性的关键因素之一，必须从用例的角度出发，在隐私控制和模型表现之间取得必要的平衡。

数据增强

此外，可能需要从对象中提取附加的元数据。Amazon Comprehend 提供实体识别例如，识别域特定数据，如政策编号和索赔编号和自定义分类例如，根据问题描述对客户服务聊天记录进行分类的能力。此外，您可能需要结合结构化和非结构化数据，以创建关键实体如客户的整体视图。例如，在航空公司忠诚度场景中，将客户互动的非结构化数据如客户聊天记录和客户评论与结构化数据信号如票务购买和积分兑换链接起来，将会具有重要的价值，从而创建更完整的客户档案，以便提供更优质和相关的行程推荐。 AWS 实体解析是一个 ML 服务，帮助匹配和链接记录。该服务有助于链接相关信息集，以创建关于关键实体如客户、产品等的更深层次的数据联系，这进一步提高了 LLM 输出的质量和相关性。这些数据存储在 Amazon S3 的转换区中，准备下游吸收以便用于向量存储、微调或训练 LLM。经过这些转变后，数据可以在 Amazon S3 中的策划区提供。

数据质量

一个关键因素是实现生成式人工智能全部潜力依赖于用于训练模型的数据质量，以及用于增强和改善模型对用户输入响应的数据质量。在准确性、偏见和可靠性的上下文中理解模型及其结果，与用于构建和训练模型的数据质量是直接成比例的。

Amazon SageMaker 模型监控提供对模型数据质量漂移和模型质量指标漂移的主动检测。还监控模型预测和特征归属中的偏见漂移。有关更多详细信息，请参见使用 Amazon SageMaker 模型监控在大规模上监控生产中的 ML 模型。检测模型中的偏见是负责任的人工智能的基本构建块，而 Amazon SageMaker Clarify 有助于检测潜在的偏见，从而可能产生负面或不准确的结果。要了解更多信息，请参见了解 Amazon SageMaker Clarify 如何帮助检测偏见。

ytb加速器

生成式人工智能的新领域之一是来自企业和专有数据存储的提示中数据的使用和质量。在这里需要考虑的新兴最佳实践是 shiftleft ，它强调早期和主动的质量保证机制。在处理为生成式人工智能应用程序设计的数据管道的上下文中，这意味着较早地识别和解决数据质量问题，以减轻后期数据质量问题的潜在影响。AWS Glue 数据质量不仅测量和监控数据在数据湖、数据仓库和事务数据库中的质量，还允许在数据被消费之前对抽取、转换和加载ETL管道中的质量问题进行早期检测和修正。有关更多详细信息，请参见从 AWS Glue 数据目录开始使用 AWS Glue 数据质量。

向量存储治理

向量数据库中的嵌入通过启用语义搜索及减少幻觉，提高了生成式人工智能应用的智能和能力。嵌入通常包含私人和敏感数据，加密数据是用户输入工作流中的推荐步骤。 Amazon OpenSearch Serverless 存储和搜索您的向量嵌入，并使用 AWS 密钥管理服务 (AWS KMS) 对静态数据进行加密。有关更多详细信息，请参见介绍 Amazon OpenSearch Serverless 的向量引擎，现在可以预览。类似地，AWS 上的其他向量引擎选项，包括 Amazon Kendra 和 Amazon Aurora，也会使用 AWS KMS 对静态数据进行加密。有关更多信息，请参阅静态数据加密和使用加密保护数据。

当嵌入生成并存储在向量存储中时，用基于角色的访问控制RBAC控制对数据的访问成为维持整体安全性的关键要求。Amazon OpenSearch 服务提供与 AWS 身份与访问管理 (IAM) 规则相关的细粒度访问控制 (FGAC) 功能，这些规则可以与 Amazon Cognito 用户相关联。OpenSearch Serverless、Amazon Kendra 和 Aurora 也提供相应的用户访问控制机制。有关更多信息，请参见 Amazon OpenSearch Serverless 的数据访问控制、使用令牌控制对文档的用户访问和 Amazon Aurora 的身份和访问管理。

用户请求响应工作流程

数据治理平面中的控制需要作为整体解决方案部署的一部分，集成到生成式人工智能应用程序中，以确保符合数据安全基于角色的访问控制以及数据隐私基于对敏感数据的角色访问政策。以下图示说明应用数据治理的工作流程。

该工作流程包括以下关键的数据治理步骤：

生成性人工智能时代的数据治理大数据博客提供符合合规政策的有效输入提示例如，偏见和毒性。通过将提示关键词与数据目录映射生成查询。根据用户角色应用 FGAC 政策。根据用户角色应用 RBAC 政策。根据用户角色权限和合规政策，对响应进行数据和内容遮蔽。

在提示周期中，必须解析用户提示并提取关键词，以确保符合合规政策，使用像 Amazon Comprehend 这样的服务见 Amazon Comprehend 的新功能毒性检测或 Amazon Bedrock 护栏。当验证通过后，如果提示需要提取结构化数据，则可以利用这些关键字从数据仓库中抽取得到相关的数据表和字段，并构建查询。通过 AWS Lake Formation 评估用户权限，以过滤相关数据。在处理非结构化数据时，搜索结果会根据在向量存储中实施的用户权限政策进行限制。最后一步是，要评估来自 LLM 的输出响应，以确保数据隐私确保数据安全和合规性例如，偏见和毒性指南。

尽管该过程特定于 RAG 实施，并