九道门 ▏数据仓库:2021年你需要知道的基本概念

一、商业中对数据的两种不同的需求

数据抓取

在企业数据诞生之初, 它的唯一目标就是为运营记录收集交易数据(www.bcuo.cn)。 考虑所有客户的联系方式、销售订单、发票、工资单等。创建数据库有两个目的:

  • 以数字方式快速记录和跟踪业务活动
  • 帮助业务用户更有效地完成日常任务

简而言之, 我们过去的数据世界就是关注当下并确保业务交易尽可能顺利进行。

数据分析

然而,企业很快意识新的问题,与上个月相比,我们的表现如何?为什么最近两个季度的收入下降了?自年初以来,我们的客户经常抱怨什么?捕获所有业务记录的必要性仍然不可或缺,但现在还有另一个同样重要的目标:分析历史数据以进行决策。

遗憾的是,曾经为收集交易数据而构建的数据库并不适合为管理层提供足够的事实和历史洞察力来做出明智的决策。由于收集当前记录和存储跨各种数据源的历史数据进行分析之间存在巨大差异,因此我们需要另一种工具,于是数据仓库诞生了。

二、传统数据仓库VS现代数据仓库

传统数据仓库

数据仓库旨在为各种来源的历史数据创建单一版本的真实数据,并使其易于访问、快速查询业务。通过这种方式, 业务分析师和管理人员可以快速了解有关业务绩效的趋势、模式或异常情况,并决定最好的做法。

现代数据仓库

数据仓库的架构最早是在 1980 年代开发的。进入 2021 年,三大趋势逐渐改变了企业处理数据资产的方式,并塑造了新一代数据仓库。

  1. 大数据导致需要在单个数据仓库中处理兆字节的数据,以获得业务洞察力。
  2. 云计算创造了一种接近无限、低成本的存储方式,具有可扩展的计算能力,可以通过现收现付的方式来分析数据。
  3. 数据科学和机器学习的兴起需要数据仓库、ETL 和数据处理工具以及数据可视化工具之间更紧密地集成, 以实现近乎实时的决策分析。

三、数据仓库 vs 数据湖 vs 数据库

  • 数据库记录企业进行的日常交易,例如在线销售交易、订阅时事通讯的新客户、赊销商品、通过在线预订系统预订的酒店房间等。它是为处理日常事务而建立的。
  • 数据湖存储各种来源的所有原始、未处理的数据。因此,数据可能是结构化的、非结构化的或半结构化的,当分析方法尚未定义时,数据可能处于不可用的状态。
  • 数据仓库将处理过的数据以可用条件存储在一个位置,以便用户可以轻松访问、查询以快速获得洞察力和做出决策。

四、EL vs ELT vs ETL vs Change Data Capture:如何将数据导入数据仓库

将来自多个数据源的原始数据打磨成数据仓库中有用信息的一系列步骤称为数据管道。

▶ 提取和加载 (EL)

EL 可能是最简单的数据管道,因为不涉及数据转换。这种类型的数据管道仅适用于满足以下两个标准。

  • 数据源和数据仓库的模式是相同的。
  • 数据绝对干净,并且以一种有用的格式随时可用,可用于临时查询。

在现实中,除了批量加载历史数据外,将数据以原样格式导入数据仓库的情况非常罕见。由于原始数据不太可能是干净的并可随时使用,因此我们需要转换原始数据,这将我们带到 ELT 和 ETL。

▶ 提取、加载和转换 (ELT)

在 ELT 过程中,来自多个数据源的原始数据立即加载到数据仓库中,无需任何转换。然后,用户将利用数据仓库本身进行转换操作,以执行基本的数据质量检查和描述性统计。在以下情况下,ELT是一个不错的选择。

  • 将数据打磨成可用格式所需的所有转换都很简单,可以通过基本的SQL操作进行处理。
  • 业务用户更喜欢立即访问原始或未合并的数据,以便在决定如何进行转换之前先进行试验以检查质量或探索数据集。

▶ 提取、转换和加载 (ETL)

对于 ETL 管道,数据在存储到数据仓库之前在管道中(也就是在数据仓库外的暂存区)中进行转换。每个转换步骤都可以用 Python、Java 或脚本编写,或者通过更直观地拖放用户界面进行配置。与 EL 和 ELT 相比,ETL 肯定更复杂,在处理以下挑战时应该调用它。

  • 数据需要复杂的转换,例如分组、展平、分区、计算或大量清理步骤来解决数据质量问题。
  • 出于合规性或安全性目的,需要在加载到数据仓库之前删除敏感信息。

由于在加载到数据仓库之前发生了复杂的转换,因此数据量越大,业务用户在访问数据之前等待的时间就越长。与 ELT 相比,这可能是 ETL 的最大缺点之一。

▶ 更改数据捕获 (CDC)

CDC 方法与 EL、ELT 和 ETL 非常不同。传统上,数据通常是从各种来源分批提取的。在某些情况下,一个数据库不能同时支持企业应用(支持日常业务交易)和批量提取到数据仓库。

CDC 方法带来两个主要好处。

  • 能够在不中断业务运营的情况下捕获随时间推移的所有变化,而不仅仅是数据提取时数据源的状态
  • 允许在数据仓库(或其他流分析应用程序)中捕获最新数据,以便在企业需要时做出更快、近乎实时的战术决策

我们需要收集所有相关数据,将其分散成单一版本的真相,然后使其易于访问,有质量保证,格式可用,查询迅速。数据仓库可能只是达到目的的一种手段,但正确使用数据仓库将决定你的洞察力是否对业务有价值。

主营产品:工业除湿机,超声波加湿机,湿膜柜式加湿器