ETL 架构

ETL 代表提取、转换和加载。在当今的数据仓库世界中,该术语扩展到 E-MPAC-TL 或提取、监控、配置文件、分析、清理、转换和加载。换句话说,ETL 专注于数据质量和元数据。

ETL Architecture

Extraction

抽取的主要目标是尽可能快地从源系统收集数据,而这些源系统不太方便。它还指出,应根据情况为源日期/时间戳、数据库日志表、混合选择最适用的提取方法。

ETL Architecture

转换和加载

转换和加载数据都是要对数据进行整合,最后将组合后的数据移动到展示区,最终用户社区可以通过前端工具访问展示区。在这里,重点应该放在 ETL 工具提供的功能上并最有效地使用它。仅使用 ETL 工具是不够的。在大中型数据仓库环境中,尽可能将数据标准化而不是进行定制非常重要。 ETL 将减少不同源到目标开发活动的吞吐时间,这些活动构成了传统 ETL 工作的大部分。

监控

监控数据可以验证数据,它在整个 ETL 过程中移动,有两个主要目标。首先,应该对数据进行筛选。应该在尽可能多地筛选传入数据和在进行过多检查时不减慢整个 ETL 过程之间取得适当的平衡。这里可以使用在 Ralph Kimbal 筛选技术中使用的由内而外的方法。这种技术可以基于一组预定义的元数据业务规则一致地捕获所有错误,并通过简单的星型模式启用对它们的报告,从而可以查看数据质量随时间的演变。其次,我们应该关注 ETL 性能。这个元数据信息可以插入到所有维度和事实表中,可以称为审计维度。

质量保证

质量保证是不同阶段之间的一个过程,可以根据需要定义,这些过程可以检查值的完整性;在不同的 ETL 阶段之间,我们是否仍然拥有相同数量的记录或特定措施的总数?此信息应作为元数据捕获。最后,应该在整个 ETL 过程中预见数据沿袭,包括产生的错误记录。

数据分析

它用于生成有关来源的统计信息。数据分析的目标是了解来源。数据剖析将使用分析技术通过分析和验证数据模式和格式以及通过识别和验证跨数据源的冗余数据来发现数据的实际内容、结构和质量。必须使用正确的工具来自动化此过程。它提供了大量和各种数据。

数据分析

为了分析剖析数据的结果,使用了数据分析。对于数据分析,更容易识别数据质量问题,如数据缺失、数据不一致、无效数据、约束问题、孤儿、重复等父子问题。正确获取此评估的结果至关重要。数据分析将成为源头和数据仓库团队之间解决悬而未决问题的沟通媒介。源到目标的映射高度依赖于源分析的质量。

源码分析

在源码分析中,不仅要关注源码,还要关注周围环境,获取源码文档。源应用程序的未来取决于源当前的数据问题、相应的数据模型/元数据存储库以及源所有者对源模型和业务规则的演练。与源所有者举行频繁的会议以检测可能影响数据仓库和相关 ETL 过程的更改至关重要。

清理

在本节中,可以修复发现的错误,这是基于预定义规则集的元数据。在这里,需要区分完全或部分拒绝的记录,并启用手动更正问题或通过更正不准确的数据字段、调整数据格式等来修复数据。

E-MPAC-TL 是一个扩展的 ETL 概念,它试图在需求与系统、工具、元数据、技术问题和约束以及最重要的数据本身的现实之间取得平衡。

下一章:ETL 测试

 ETL(提取、转换和加载)测试ETL 测试在数据移动到生产数据仓库系统之前完成。它也称为表平衡或产品对帐。 ETL 测试的范围和测试过程中遵循的步骤与数据库测试不同。ETL 测试是为了确保转换后从源加载到目标的数据 ...