更新時間:2023年03月16日17時39分 來源:傳智教育 瀏覽次數:
數據預處理針對各種數據問題提供了相應的解決方法,并將這些方法按照不同的功能劃分到處理過程中的每個步驟,以逐步實現(xiàn)提高數據質量、整合多源數據、調整數據形式、保留重要數據的目標。數據預處理的一般流程如下所示。
上圖所示的一般流程中各步驟的具體說明如下。
1.數據獲取
數據獲取是預處理的第一步,該步驟主要負責從文件、數據庫、網頁等眾多渠道中獲取數據,以得到預處理的初始數據,為后續(xù)的處理工作做好數據準備。
2.數據清理
數據清理主要是將“臟”數據變成“干凈”數據的步驟。該步驟會通過一系列的方法對“臟”數據進行處理,包括刪除重復數據、填充缺失數據、檢測異常數據等,以達到清除冗余數據、規(guī)范數據、糾正錯誤數據的目的。數據清理的示意圖如下。
3.數據集成
數據集成主要負責把多個數據源合并成一個數據源,以達到增大數據量的目的數據集成的示意圖如下
值得一提的是,在合并多個數據源時,因為數據源對應的現(xiàn)實實體的表達形式不同,所以要考慮實體識別、屬性冗余、數據值沖突等問題。
4.數據變換
數據變換主要負貴將數據轉換成適當的形式,以降低數據的復雜度。數據變換的示意圖如下 所示。
5.數據規(guī)約
數據規(guī)約主要負責在盡可能保持數據原貌的前提下,最大限度地精簡數據量,其方法包括降低數據的維度、刪除與數據分析或數據挖掘主題無關的數據等。數據規(guī)約的示意圖如下。
需要說明的是,數據清理、數據集成、數據變換、數據規(guī)約都是數據預處理的主要步驟,它們沒有嚴格意義上的先后順序,在實際應用時并非全部會被使用,具體要視業(yè)務需求而定。本節(jié)只簡單地介紹了每個步驟的目的,每個步驟中涉及的處理方法會在后文展開介紹。