找回密码
 加入慢享
猜你喜欢
旅行常客论坛

CDF 如何实现成功的数据网格架构

[复制链接]
发表于 2021-11-10 13:00:00 | 显示全部楼层 |阅读模式


介绍

在本博客中,我将展示Cloudera DataFlow (CDF)(Cloudera Data Platform (CDP)上可用的边缘到云流数据平台作为数据集成和民主化结构的价值。在数据网格架构的背景下,我将展示与特定架构相关的行业设置/用例,并强调它针对业务和技术领域提供的业务价值。为了更好地阐明该架构的价值主张,我将从我为在金融服务领域运营的 Cloudera 客户构建的业务案例中展示 CDF 作为数据网格架构的推动者所提供的好处。

本博客将更多地侧重于提供数据网格架构是什么以及可用于启用此类架构的特定 CDF 功能的高级概述,而不是详细介绍超出本文范围的技术实现细微差别。

数据网格架构及其所需功能简介

数据网格架构介绍

数据网格架构的概念并不是全新的。它的概念起源于微服务架构、它的设计原则(即,可重用性、松耦合、自治、容错、可组合性和可发现性)以及它试图解决的问题;总之,作为微服务架构范式的镜像,数据网格架构旨在在不引入任何数据所有权更改的情况下,在不同且单独管理的数据域之间实现一定程度的集成,从而促进数据去中心化。

对去中心化数据网格架构的需求源于组织在实施更集中的数据管理架构时面临的挑战——这些挑战可归因于技术(例如,需要集成数据生态系统中使用的多个“点解决方案”)和组织原因(例如,难以实现跨组织治理模型)。这些去中心化的努力随着时间的推移出现在不同的名称下,例如,数据集市与数据仓库实施(结构化数据时代的流行架构辩论),然后是企业范围的数据湖与较小的、通常是 BU 特定的“数据池”。虽然数据网格架构引入了一些权衡,但本博客的范围不是评估其优缺点或将其与其他数据架构进行对比, 

数据网格的组件

实现数据网格架构的隐含假设是存在界限明确、单独管理的数据域。在企业数据管理领域,这样的数据域称为权威数据域 (ADD)。根据企业数据管理委员会的说法,权威数据域是“由数据管理管理机构指定、验证、批准和执行的数据域”。 

数据网格可以定义为“节点”的集合,通常称为数据产品,每个节点都可以使用四个关键的描述属性进行唯一标识: 

  • 应用逻辑:应用逻辑是指数据处理的类型,可以是从分析或操作系统到摄取数据输入、基于某些业务逻辑应用转换并产生数据输出的数据管道的任何内容。

  • 数据和元数据:基于应用逻辑产生的数据输入和数据输出。还包括与数据输入/数据输出相关的业务和技术元数据,这些元数据支持数据发现并就数据资产的定义达成跨组织共识。

  • 基础设施环境:托管应用程序逻辑和数据的基础设施(包括私有云、公共云或两者的组合)。

  • 数据治理模型:根据任何相关法律和监管框架定义和实施适用于数据产品的数据管理计划的标准、控制和最佳实践的组织结构。数据治理机构将数据产品指定为权威数据源 (ADS),将其数据发布者指定为权威供应点 (APP)。

数据网格的关键设计原则

为了实现其愿景和目标,数据网格以以下设计原则为基础: 

  • 自助服务数据发现: 数据消费者(包括企业内部的用户,订阅应用程序,甚至外部数据共享的合作伙伴)应该能够轻松地访问数据提供的数据生产者通过自我(作为权威数据源进行操作通常是发布应用程序)减少数据访问障碍的服务机制(例如集中式 UI 门户)。

  • 全面的数据安全性:对数据资产的访问应该由一个强大的安全机制来管理,确保基于企业范围标准的数据参与者(数据参与者是数据生产者和消费者)的身份验证,并根据数据类型应用细粒度的数据访问权限每个数据产品的(例如 PII 数据),以及每个不同数据消费者组的访问权限。

  • 数据沿袭:数据成分(包括数据消费者、生产者和数据管理员)应该能够在数据从数据生产者流向数据消费者时跟踪数据的沿袭,而且在适用的情况下,随着数据在不同数据处理阶段之间的边界内流动给定的数据产品。数据沿袭的后一种情况适用于例如数据工程管道,其中数据输入在一系列通常称为有向无环图 (DAG) 的转换之后被转换为数据输出。

  • 数据审计:除了数据沿袭,数据管理员和信息安全分析师应该能够跟踪数据消费者与数据资产/数据产品的所有交互。

  • 数据编目:数据目录包括企业范围内可接受的数据元素定义,这些数据元素构成通过自助数据门户公开的数据产品。这些定义包括通过向数据消费者和数据生产者公开元数据信息来帮助理解可供使用的数据的有关业务和技术背景的信息。 

  • 一种(松散的)耦合机制:一种使数据消费者能够以可重用的方式(即,无需开发点对点集成)使用数据的能力,一旦他们订阅了特定的 ADS(并且在被授权这样做之后)。遵循 ESB 范式,数据产品彼此抽象解耦,并通过耦合机制连接在一起作为公开数据产品的逻辑端点。

上述能力仅涵盖数据网格架构的技术方面,不包括建立这种去中心化数据架构所需的运营和治理能力。

CDF 如何实现成功的数据网格架构

Cloudera DataFlow 平台的快速介绍 

CDF 是一个实时流数据平台,它收集、管理、分析和处理边缘、数据中心和云中的动态数据。CDF 通过利用开源项目(例如 Apache NiFi、Apache Kafka 和 Apache Flink)提供边缘和流管理、流消息传递和流处理和分析等关键功能,以轻松构建边缘到云的流应用程序。在 CDP 的支持下,CDF 的流组件可以跨边缘、本地以及任何类型的公共、私有或混合云环境无缝部署。

尤其是 Apache NiFi,它是一种数据移动和摄取工具,可用于收集、转换和移动大量高速数据,无论其类型、大小或来源如何。Apache NiFi 的一些明显优势使其成为数据网格实施的绝佳候选者(结合 Cloudera 数据平台更广泛的数据安全性、治理和可观察性功能)包括:集中管理、具有事件级别的端到端可追溯性在整个数据生命周期和交互式命令和控制中的数据来源,提供实时操作可见性。

CDF 功能与数据网格实现的关键设计原则保持一致

CDF 具有许多与我们在上一节中概述的关键设计原则一致的功能: 

数据安全:共享数据体验 (SDX) 是 Cloudera 数据平台的数据抽象层,为数据安全、治理和可观察性提供统一的机制。SDX 的一部分是 Apache Ranger,它提供了一种细粒度的编程机制来定义不同数据网格资源上不同数据成分/实体(内部或外部用户)的权限。 

数据沿袭:Apache NiFi 和 Apache Atlas(包含在 SDX 中)都提供强大的数据来源和数据沿袭功能,包括数据网格的数据产品边界内外。当涉及到数据产品边界外(即发布者和订阅者之间)的数据移动时,Apache NiFi 和 Apache Atlas 都提供实时数据沿袭,因为数据在不同数据成分之间流动,从而实现数据合规性和优化。此外,Apache Atlas 在数据产品的边界内提供实时数据沿袭,这些数据产品是使用 CDP 体验或与 SDX 集成的第 3 方解决方案(如 EMR)组合而成的。

数据审计:除了可用于确保数据合规性的 Data Lineage 之外,NiFi 和 SDX 还提供额外的数据审计功能,例如记录与数据成分与数据网格中包含的数据元素的所有交互有关的事件级详细信息.

数据编目:SDX 提供复杂的数据编目功能,可以捕获数据产品的业务和技术元数据。它还具有自动数据分类、使用自然语言搜索等功能。与其他功能一样,数据目录可以涵盖数据产品的内在和外在数据。

数据交换机制:如前所述,NiFi 提供了基于数据流编程的非常强大且灵活的数据流管理功能,支持系统之间的数据路由、转换或中介的某种组合。因此,NiFi 支持具有异构数据输入/输出的不同类型数据产品之间的数据网格实现(这些数据产品可能包括操作或分析系统、具有结构化或非结构化数据的数据库、产生事件流的应用程序,甚至是基于边缘设备)基础数据移动机制称为流处理器,它定义了数据检索、操作和路由的执行方式。

数据流功能:CDF 的另一个组件 Apache Kafka 支持开发可审计、可重播的数据流,这些数据流定义了数据产品的输出如何作为事件流式传输到数据消费者。这种数据流功能还支持开发复合流架构,这些架构可以解决流频率(流可以是实时的或批量的)或生产者和消费者之间的流模式(一对一或一对一)方面的不同功能特征。许多)。一种常见的数据网格方法是将数据产品输出公开为数据事件,这些事件通过Kafka 主题提供给数据消费者(Kafka 主题是一种对数据生产者的数据输出进行分类和存储的方法,这些数据输出可以提供) 供数据消费者使用)。

CDF 在数据网格实现中的价值主张

CDF 已交付的典型客户挑战

CDF 功能已用于金融服务和非必需消费品等行业的数据网格实施。组织在实施启用 CDF 的数据网格之前面临的典型挑战如下: 

  1. 实现价值的时间:如果没有松散耦合机制,使用传统方法在数据订阅者和数据生产者之间提供对数据产品的访问是一个繁琐的过程,其中包括在系统之间开发自定义集成。就我与一家金融服务机构合作建立数据网格业务案例而言,开发自定义集成(或“数据馈送”),涉及的活动包括业务需求文档 (BRD) 的开发、漫长的审批周期、脚本编写努力开发数据馈送、数据馈送的端到端测试等。 

  2. 元数据管理:在遗留实现中,对数据产品的更改(例如,更新/新表)以及由此产生的对数据馈送的更改需要额外的开发工作和手动报告到企业数据目录。

  3. 数据发现:通常,传统实施提供有限的数据发现功能(如果有的话),并且在大多数情况下,数据馈送订阅者必须通过查看 BRD 来追溯该信息。这是点对点数据交换机制最大的间接业务成本之一,它通过让数据订阅者花费大量时间来了解数据的来源和数据关系而导致业务生产力的大量延迟。

  4. 数据可访问性:虽然基于自定义的集成提供了连接数据产品所需的集成机制,但它们通常不允许个人用户访问数据产品,仅仅是因为创建点对点提要的成本太高而无法证明这种整合是合理的。

客户端示例

最近,我为一家大型金融服务机构构建了一个商业案例,以使用 Apache NiFi 作为数据联合机制来量化使用 CDF 的数据网格架构的价值。与该实施相关的价值驱动因素如下:  

例如,与现有架构相比,启用 CDF 的数据网格将数据提供者和数据订阅者/消费者之间的可重用单位成本降低了近 99%。因此,它使向个人用户/数据消费者提供数据资产成为可能,考虑到在数据提供者和数据订阅者之间开发自定义集成的单位成本经济,这是不可能的。

总结

在上面的部分中,我概述了数据网格架构所需的功能,并重点介绍了 CDF 平台如何作为实现此类架构的技术基础。CDF 的独特区别源于集成的安全和治理能力以及平台的多功能性:

  • 通过共享数据体验 (SDX) 提供的集成安全和治理功能已在金融服务等受监管行业中成功实施数据网格。

  • CDF 平台的多功能性以及与 CDP 的更广泛集成支持扩展到数据网格之外的复杂用例。例如,CDF 已被用于实施企业级应用程序,例如为客户分析、实时网络安全分析等摄取和处理 IoT 数据。

要了解有关 CDF 平台的更多信息,请访问https://www.cloudera.com/products/cdf.html

原文作者:Andreas Skouloudis

原文链接:https://blog.cloudera.com/how-cloudera-data-flow-enables-successful-data-mesh-architectures/



回复

使用道具 举报

快速回复 返回顶部 返回列表