更新時間:2023年12月04日11時08分 來源:傳智教育 瀏覽次數(shù):
RDD之間進行相互迭代計算(Transformation的轉換),當執(zhí)行開啟后,新RDD的生成,代表老RDD的消失。RDD的數(shù)據(jù)是過程數(shù)據(jù),只在處理的過程中存在,一旦處理完成,就不見了。這個特性可以最大化的利用資源,老舊RDD沒用了就從內存中清理,給后續(xù)的計算騰出內存空間。
例如上圖,rd3被2次使用,第一次使用之后,其實RDD3就不存在了.第二次用的時候,只能基于RDD的血緣關系,從RDD1重新執(zhí)行,構建出來RDD3,供RDD5使用。
上述的場景,肯定要執(zhí)行優(yōu)化,優(yōu)化就是:RDD3如果不消失,那么RDD1→RDD2→RDD3這個鏈條就不會執(zhí)行2次,或者更多次RDD的緩存技術:Spark提供了緩存API,可以讓我們通過調用APl,將指定的RDD數(shù)據(jù)保留在內存或者硬盤上緩存的API。
#RDD3被2次使用,可以加入緩存進行優(yōu)化 rdd3.cache()#緩存到內存中. rdd3.persist(StorageLevel.MEMORY_ONLY) #僅內存緩存 rdd3.persist(StorageLevel.MEMORY_ONLY_2) #僅內存緩存,2個副本 rdd3.persist(StorageLevel.DISK_ONLY) #僅緩存硬盤上 rdd3.persist(StorageLeveL.DISK_ONLY_2) #僅緩存硬盤上,2個副本 rdd3.Dtrsist (StorageLevet.DISK_ONLY_3) #僅緩存硬盤上,3個副本 rdd3.per sist(StorageLeveL.MEMORY_AND_DISK) #先放內存,不夠放硬盤 rdd3.persist(StorageLeve1.MEMORY_AND_DISK_2)#先放內存,不夠放硬盤,2個副本 rdd3.persist(StorageLevel.OFF_HEAP) #堆外內存(系統(tǒng)內存) #如上API,自行選擇使用即可 #一般建議使用rdd3.persist(StorageLevel.MEMORY_AND_DISK) #如果內存比較小的集群,建議使用rdd3.persist(StorageLevel.DISK_ONLY)或者就別用緩存了用CheckPoint #主動清理緩存的API rdd.unpersist()
RDD緩存特點
緩存技術可以將過程RDD數(shù)據(jù),持久化保存到內存或者硬盤上。
但是,這個保存在設定上是認為不安全的,緩存的數(shù)據(jù)在設計上是認為有丟失風險的。所以,緩存有一個特點就是:其保留RDD之間的血緣(依賴)關系,一旦緩存丟失,可以基于血緣關系的記錄,重新計算這個RDD的數(shù)據(jù)。
緩存如何丟失:在內存中的緩存是不安全的,比如斷電\計算任務內存不足,把緩存清理給計算讓路,硬盤中因為硬盤損壞也是可能丟失的。
RDD緩存的保存過程: