首頁Python+大數(shù)據(jù)學(xué)習(xí)常見問題正文

HDFS的優(yōu)點(diǎn)有哪些?

更新時(shí)間:2022年07月13日11時(shí)19分來源:傳智教育瀏覽次數(shù):

好口碑IT培訓(xùn)

　　隨著互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模的不斷擴(kuò)大，對文件存儲(chǔ)系統(tǒng)提出了更高的要求，需要更大的容量、更好的性能以及安全性更高的文件存儲(chǔ)系統(tǒng)，與傳統(tǒng)分布式文件系統(tǒng)一樣，HDFS也是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連，其具有如下幾個(gè)優(yōu)點(diǎn)：

　　1.高容錯(cuò)

　　HDFS可以由成百上千臺(tái)服務(wù)器組成，每個(gè)服務(wù)器存儲(chǔ)文件系統(tǒng)數(shù)據(jù)的一部分。HDFS中的副本機(jī)制會(huì)自動(dòng)把數(shù)據(jù)保存多個(gè)副本，DataNode節(jié)點(diǎn)周期性地向NameNode發(fā)送心跳信號，當(dāng)網(wǎng)絡(luò)發(fā)生異常，可能導(dǎo)致DataNode與NameNode失去通信，NameNode和DataNode通過心跳檢測機(jī)制，發(fā)現(xiàn)DataNode宕機(jī)，DataNode中副本丟失，HDFS則會(huì)從其他DataNode上面的副本自動(dòng)恢復(fù)，所以HDFS具有高的容錯(cuò)性。

　　2.流式數(shù)據(jù)訪問

　　HDFS的數(shù)據(jù)處理規(guī)模比較大，應(yīng)用程序一次需要訪問大量的數(shù)據(jù)，同時(shí)這些應(yīng)用程序一般都是批量地處理數(shù)據(jù)，而不是用戶交互式處理，所以應(yīng)用程序能以流的形式訪問數(shù)據(jù)集，請求訪問整個(gè)數(shù)據(jù)集要比訪問一條記錄更加高效。

　　3.支持超大文件

　　HDFS具有很大的數(shù)據(jù)集，旨在可靠的大型集群上存儲(chǔ)超大型文件(GB、TB、PB級別的數(shù)據(jù))，它將每個(gè)文件切分成多個(gè)小的數(shù)據(jù)塊進(jìn)行存儲(chǔ)，除了最后一個(gè)數(shù)據(jù)塊之外的所有數(shù)據(jù)塊大小都相同，塊的大小可以在指定的配置文件中進(jìn)行修改，在Hadoop2.x版本中默認(rèn)大小是128M。

　　4.高數(shù)據(jù)吞吐量

　　HDFS采用的是“一次寫入，多次讀取”這種簡單的數(shù)據(jù)一致性模型，在HDFS中，一個(gè)文件一旦經(jīng)過創(chuàng)建、寫入、關(guān)閉后，一旦寫入就不能進(jìn)行修改了，只能進(jìn)行追加，這樣保證了數(shù)據(jù)的一致性，也有利于提高吞吐量。

　　5.可構(gòu)建在廉價(jià)的機(jī)器上

　　Hadoop的設(shè)計(jì)對硬件要求低，無須構(gòu)建在昂貴的高可用機(jī)器上，因?yàn)樵贖DFS設(shè)計(jì)中充分考慮到了數(shù)據(jù)的可靠性，安全性和高可用性。

上一篇：大數(shù)據(jù)培訓(xùn)：HDFS的Java API操作 下一篇：大數(shù)據(jù)培訓(xùn)：Zookeeper的特性是什么?