更新時(shí)間:2019年09月12日17時(shí)49分 來源:傳智播客 瀏覽次數(shù):
正則化是廣泛應(yīng)用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中的技術(shù),它可以改善過擬合,降低結(jié)構(gòu)風(fēng)險(xiǎn),提高模型的泛化能力,有必要深入理解正則化技術(shù)。
奧卡姆剃刀原則
奧卡姆剃刀原則稱為“如無必要,勿增實(shí)體”,即簡單有效原理。在機(jī)器學(xué)習(xí)中,我們說在相同泛化誤差下,優(yōu)先選用較簡單的模型。依賴于該原則,提出了正則化技術(shù)。
什么是正則化及正則化的作用
正則化是在經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)后面加上正則罰項(xiàng),使得通過最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)求解模型參數(shù)轉(zhuǎn)變?yōu)橥ㄟ^最小化結(jié)構(gòu)風(fēng)險(xiǎn)求解模型參數(shù),進(jìn)而選擇經(jīng)驗(yàn)風(fēng)險(xiǎn)小并且簡單的模型。
式中是經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng),是正則項(xiàng), 是正則化參數(shù)。
簡單的模型擬合程度差(偏差大),泛化能力強(qiáng)(方差小);復(fù)雜的模型擬合程度好(偏差小),泛化能力弱(方差大)。
故選用合適的模型復(fù)雜度,使得泛化誤差最小。
正則化的方法
正則化也可以稱為規(guī)則化,在數(shù)學(xué)領(lǐng)域常稱為范數(shù),常用的有L1范數(shù)和L2范數(shù)。P范數(shù)的數(shù)學(xué)公式如下:
1) L0范數(shù)表示向量中非零元素的個(gè)數(shù)
2) L1范數(shù)表示向量元素的絕對(duì)值之和
3) L2范數(shù)表示向量元素的平方和再開方
4) 范數(shù)表示所有向量元素絕對(duì)值中的最大值
5) 范數(shù)表示所有向量元素絕對(duì)值中的最小值
其中L1正則和L2正則是常用的正則化方法,L1正則可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇,同時(shí)可以防止過擬合。L2正則可以防止模型過擬合。L0范數(shù)一定可以保證得到稀疏模型,但L0范數(shù)的求解是NP難問題,實(shí)際中一般采用L1范數(shù)代替L0范數(shù)得到稀疏解,可以簡單認(rèn)為L1范數(shù)是L0范數(shù)的凸近似。
從圖形角度分析L1正則與L2正則
從圖形角度分析L1正則與L2正則,為簡化分析,考慮只有兩個(gè)權(quán)值向量w1和w2。
多彩的等值線代表經(jīng)驗(yàn)損失函數(shù)解的空間,菱形線代表L1范數(shù)空間,當(dāng)二者相交時(shí),代表了一個(gè)結(jié)構(gòu)損失函數(shù)的解,L1范數(shù)與經(jīng)驗(yàn)損失函數(shù)的交點(diǎn)一般在坐標(biāo)軸上,從而可以使得某些w=0,進(jìn)而得到稀疏解。
L2正則化
多彩的等值線代表經(jīng)驗(yàn)損失函數(shù)解的空間,圓形線代表L2范數(shù)空間,L2范數(shù)與經(jīng)驗(yàn)損失函數(shù)的交點(diǎn)一般接近于坐標(biāo)軸上,可以改善過擬合,但不具有稀疏性。
從公式角度分析L1正則與L2正則
首先加入L2正則項(xiàng)后的損失函數(shù)形式:
其中m為樣本個(gè)數(shù),n為特征個(gè)數(shù),為了最小化損失函數(shù),對(duì)各個(gè)模型參數(shù)求偏導(dǎo)后等于零即可求得估計(jì)值:
上式中, 是步長,,所以L2正則會(huì)對(duì)每一個(gè)模型參數(shù)進(jìn)行一定程度的縮減,但不會(huì)縮減為0。
對(duì)于加入L1正則項(xiàng)后的損失函數(shù)形式:
對(duì)各個(gè)模型參數(shù)求偏導(dǎo)后等于零,可得:
從上式可以看出:當(dāng)上一輪θ_j大于0時(shí),下一次更新θ_j一定減少,當(dāng)上一輪θ_j小于0時(shí),下一次更新θ_j一定增加,也就是說每一輪訓(xùn)練θ_j都是一定往0方向靠近,最終可得近似的稀疏解。
從貝葉斯角度分析L1正則與L2正則
從貝葉斯角度看,正則化相當(dāng)于對(duì)模型參數(shù)引入先驗(yàn)分布:
L2正則,模型參數(shù)服從高斯分布, ,對(duì)參數(shù)加了分布約束,大部分絕對(duì)值很小。
L1正則,模型參數(shù)服從拉普拉斯分布,對(duì)參數(shù)加了分布約束,大部分取值為0,這也解釋了為何L1正則有獲取稀疏模型的功能。
推薦了解:大數(shù)據(jù)課程
為什么要學(xué)大數(shù)據(jù)?大數(shù)據(jù)有什么價(jià)值?
2019-09-06大數(shù)據(jù)能應(yīng)用到哪些領(lǐng)域?
2019-09-06大數(shù)據(jù)培訓(xùn)課程哪家的好?大數(shù)據(jù)培訓(xùn)課程推薦
2019-09-06大數(shù)據(jù)時(shí)代的精準(zhǔn)內(nèi)容推薦系統(tǒng)[大數(shù)據(jù)培訓(xùn)]
2019-09-03應(yīng)屆生如何快速找到互聯(lián)網(wǎng)工作?
2019-08-30Apache Hive metastore服務(wù)使用詳解[大數(shù)據(jù)]
2019-08-29北京校區(qū)