首頁(yè)Python+大數(shù)據(jù)學(xué)習(xí)常見(jiàn)問(wèn)題正文

大數(shù)據(jù)培訓(xùn)：填充缺失值的方法

更新時(shí)間:2022年08月12日11時(shí)59分來(lái)源:傳智教育瀏覽次數(shù):

好口碑IT培訓(xùn)

　　數(shù)據(jù)挖掘中面對(duì)的通常都是大型的數(shù)據(jù)庫(kù)，它的屬性有幾十個(gè)甚至幾百個(gè)，因?yàn)槠渲心硞€(gè)屬性值的缺失而放棄大量其他的屬性值，這種刪除是對(duì)信息的極大浪費(fèi)，所以產(chǎn)生了插補(bǔ)缺失值的思想與方法。常用的填充缺失值方法具體如下。

　　1.均值填充

　　數(shù)據(jù)的屬性分為定矩型和非定矩型。如果缺失值是定矩型的，就以該屬性存在值的平均值插補(bǔ)缺失的值;如果缺失值是非定矩型的，就根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理，用該屬性的眾數(shù)(即出現(xiàn)頻率最高的值)補(bǔ)齊缺失的值。

　　2.熱卡填充

　　對(duì)于一個(gè)包含缺失值的對(duì)象，熱卡填充方法會(huì)在完整數(shù)據(jù)集中找到一個(gè)與它最相似的對(duì)象的值進(jìn)行填充。對(duì)于不同的問(wèn)題，可能會(huì)選用不同的標(biāo)準(zhǔn)對(duì)相似對(duì)象進(jìn)行判定，從概念上理解該方法很簡(jiǎn)單，利用數(shù)據(jù)間的關(guān)系進(jìn)行缺失值評(píng)估。熱卡填充后方法的缺點(diǎn)在于難以定義相似標(biāo)準(zhǔn)，人為主觀因素較多。

　　3.回歸填充

　　將缺失值變量(自身字段)作為因變量，相關(guān)變量(其他字段)作為自變量進(jìn)行回歸擬合，用預(yù)測(cè)值作為填補(bǔ)值，需要注意的是自變量的數(shù)據(jù)盡量是完整的。

　　與前述幾種插補(bǔ)方法比較，回歸填充方法的優(yōu)勢(shì)是可充分利用數(shù)據(jù)庫(kù)中的信息，弊端主要有兩點(diǎn)：第一，該方法是無(wú)偏估計(jì)，但容易忽視隨機(jī)誤差、低估標(biāo)準(zhǔn)差和其他未知性質(zhì)的測(cè)量值，而且這一問(wèn)題會(huì)隨著缺失信息的增多變得更加嚴(yán)重;第二，研究者必須假設(shè)存在缺失值所在的變量與其他變量存在線性關(guān)系，大多數(shù)情況下這種關(guān)系是不存在的。

　　4.多重填充

　　多重填充是由Rubin等人于1987年建立起的一種數(shù)據(jù)擴(kuò)充和統(tǒng)計(jì)分析方法，作為簡(jiǎn)單估算的改進(jìn)產(chǎn)物。首先，多重估算技術(shù)用一系列可能的值替換每個(gè)缺失值，以反映被替換的缺失數(shù)據(jù)的不確定性。然后，用標(biāo)準(zhǔn)的統(tǒng)計(jì)分析過(guò)程對(duì)多次替換后產(chǎn)生的若干個(gè)數(shù)據(jù)集進(jìn)行分析。最后，把來(lái)自各個(gè)數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果進(jìn)行綜合，得到總體參數(shù)的估計(jì)值。

　　由于多重估算技術(shù)并不是用單一的值替換缺失值，而是試圖產(chǎn)生缺失值的一個(gè)隨機(jī)樣本，這種方法可以反映出由于數(shù)據(jù)缺失而導(dǎo)致的不確定性，產(chǎn)生更加有效的統(tǒng)計(jì)推斷。

上一篇：數(shù)據(jù)清洗轉(zhuǎn)換是什么意思? 下一篇：什么是Rebalanc？Rebalance觸發(fā)時(shí)機(jī)有哪些？