更新時間:2022年11月10日09時48分 來源:傳智教育 瀏覽次數:
ETL主要是用來實現異構數據源數據集成的。多種數據源的所有原始數據大部分未作修改就被載入ETL,因而,無論數據源在關系型數據庫、非關系型數據庫,還是在外部文件,集成后的數據都將被置于數據庫的數據表或數據倉庫的維度表中,以便在數據庫內或數據倉庫中作進一步轉換(因此,一般會將最終的數據存儲到數據庫或者數據倉庫中)。ETL的體系結構如圖2-1所示。
圖2-1 ETL的體系結構
在圖2-1中,若數據源1和數據源2均為功能較強大的DBMS(數據庫管理系統),則可以使用SQL語句完成一部分數據清洗工作。但是,如果數據源為外部文件,就無法使用SQL語句進行數據清洗工作了,只能直接從數據源中抽取出來,然后在數據轉換的時候進行數據清洗的工作。因此,數據倉庫中的數據清洗工作主要還是在數據轉換的時候進行。清洗好的數據將保存到目標數據庫中,用于后續(xù)的數據分析、數據挖掘以及商業(yè)智能。