大數(shù)據(jù)的兩種計算框架優(yōu)劣對比，哪個更適合開發(fā)？

更新時間:2020年11月18日16時07分來源:傳智播客瀏覽次數(shù):

　　Hadoop與Spark兩者都是大數(shù)據(jù)計算框架，但是兩者各自都有自己的優(yōu)勢，關(guān)于Spark與Hadoop的對比，主要有以下幾點(diǎn)：

　　1. 編程方式

　　Hadoop的MapReduce在計算數(shù)據(jù)時，計算過程必須要轉(zhuǎn)化為Map和Reduce兩個過程，從而難以描述復(fù)雜的數(shù)據(jù)處理過程;而Spark的計算模型不局限于Map和Reduce操作，還提供了多種數(shù)據(jù)集的操作類型，編程模型比MapReduce更加靈活。

　　2. 數(shù)據(jù)存儲

　　Hadoop的MapReduce進(jìn)行計算時，每次產(chǎn)生的中間結(jié)果都是存儲在本地磁盤中;而Spark在計算時產(chǎn)生的中間結(jié)果存儲在內(nèi)存中。

　　3. 數(shù)據(jù)處理

　　Hadoop在每次執(zhí)行數(shù)據(jù)處理時，都需要從磁盤中加載數(shù)據(jù)，導(dǎo)致磁盤的IO開銷較大;而Spark在執(zhí)行數(shù)據(jù)處理時，只需要將數(shù)據(jù)加載到內(nèi)存中，之后直接在內(nèi)存中加載中間結(jié)果數(shù)據(jù)集即可，減少了磁盤的IO開銷。

　　4. 數(shù)據(jù)容錯

　　MapReduce計算的中間結(jié)果數(shù)據(jù)，保存在磁盤中，并且Hadoop框架底層實(shí)現(xiàn)了備份機(jī)制，從而保證了數(shù)據(jù)容錯;同樣Spark RDD實(shí)現(xiàn)了基于Lineage的容錯機(jī)制和設(shè)置檢查點(diǎn)兩種方式的容錯機(jī)制，彌補(bǔ)數(shù)據(jù)在內(nèi)存處理時斷電數(shù)據(jù)丟失的問題。關(guān)于Spark容錯機(jī)制我們在第三章Spark RDD彈性分布式數(shù)據(jù)集中將會詳細(xì)講解。

　　在Spark與Hadoop性能對比中，較為明顯的缺陷是Hadoop 中的MapReduce計算延遲較高，無法勝任當(dāng)下爆發(fā)式的數(shù)據(jù)增長所要求的實(shí)時、快速計算的需求。接下來，我們通過圖1來詳細(xì)講解這一原因。

　　圖1 Hadoop與Spark執(zhí)行流程

　　從圖1中可以看出，使用Hadoop MapReduce進(jìn)行計算時，每次計算產(chǎn)生的中間結(jié)果都需要從磁盤中讀取并寫入，大大增加了磁盤的IO開銷，而使用Spark進(jìn)行計算時，需要先將磁盤中的數(shù)據(jù)讀取到內(nèi)存中，產(chǎn)生的數(shù)據(jù)不再寫入磁盤，直接在內(nèi)存中迭代處理，這樣就避免了從磁盤中頻繁讀取數(shù)據(jù)造成不必要的開銷。通過官方計算測試，Hadoop與Spark在執(zhí)行邏輯斯蒂回歸時所需的時間對比，如圖2所示。