Python大數(shù)據(jù)培訓：分析預處理的數(shù)據(jù)

更新時間:2023年02月13日15時02分來源:傳智教育瀏覽次數(shù):

好口碑IT培訓

　　在收集的日志文件中，通常情況下，不能直接將日志文件進行數(shù)據(jù)分析，這是因為日志文件中有許多不合法的數(shù)據(jù)，如以下兩條數(shù)據(jù)：

   58.215.204.118 -- [18/Sep/2013:06:52:33 +0000] -400 0 --
   101.226.68.137 -- [18/Sep/2013:06:52:36 +0000]HEAD/HTTP/1.1 200 20 -
   DNSPod-Monitor/1.0

　　上述日志數(shù)據(jù)在網(wǎng)絡傳輸時發(fā)生了數(shù)據(jù)丟失，針對這種數(shù)據(jù)需要將其過濾去除，數(shù)據(jù)預處理流程如圖11-3所示。

　　從圖11-3可以看出，數(shù)據(jù)預處理階段主要是過濾不合法的數(shù)據(jù)，清洗出無意義的數(shù)據(jù)信息，并且將原始日志中的數(shù)據(jù)格式轉(zhuǎn)換成利于后續(xù)數(shù)據(jù)分析時規(guī)范的格式，根據(jù)統(tǒng)計需求，篩選出不同主題的數(shù)據(jù)。

1676271506573_數(shù)據(jù)預處理流程.jpg

　　圖11-3 數(shù)據(jù)預處理流程

　　在數(shù)據(jù)預處理階段，主要目的就是對收集的原始數(shù)據(jù)進行清洗和篩選，因此使用前面學習的MapReduce技術就可以輕松實現(xiàn)。在實際開發(fā)中，數(shù)據(jù)預處理過程通常不會直接將不合法的數(shù)據(jù)直接刪除，而是對每條數(shù)據(jù)添加標識字段，從而避免其他業(yè)務使用時丟失數(shù)據(jù)。

　　另外，此次數(shù)據(jù)預處理只是清洗和篩選不合法的數(shù)據(jù)信息，會讀取每行日志文件數(shù)據(jù)并最終輸出一條數(shù)據(jù)，不會進行其他操作，因此在使用MapReduce技術進行處理過程中，只會涉及Map階段，不會涉及Reduce階段。在默認情況下，ReduceTask值為1，因此在主運行函數(shù)中，需要設置Job.setNumReduceTasks(0)。