提起Spark這檔子事兒,咱得瑟一下知識庫存。人說高手在民間,咱民間吃瓜群眾也得有個亮瞎眼的瞬間,是不?今天就來給大伙兒秀秀Spark那幾個核心組件的底細(xì),咱自嘲一番,逗大伙兒開心。
要說Spark Driver,那可是彈指神通的主兒,相當(dāng)于整個Spark集群的“帶頭大哥”。它負(fù)責(zé)解析應(yīng)用程序,把一個大任務(wù)拆成一堆小任務(wù),分給下面的“小弟們”去執(zhí)行??蓜e小看這位“帶頭大哥”,拆解任務(wù)那叫一個快、準(zhǔn)、狠,不過偶爾也會鬧個小情緒,比如任務(wù)解析失敗,那可就尷尬了。
接下來聊聊Spark Executor,這可是執(zhí)行任務(wù)的小弟們。他們分布在各個節(jié)點(diǎn)上,聽從“帶頭大哥”的指揮,兢兢業(yè)業(yè)地執(zhí)行任務(wù)。別看他們不起眼,可人家能吃苦,能耐勞,還能互相通信,把執(zhí)行結(jié)果匯總起來。這就叫“兄弟齊心,其利斷金”。
Spark SQL這位謀士,擅長數(shù)據(jù)分析,能把結(jié)構(gòu)化數(shù)據(jù)處理得服服帖帖。它內(nèi)置了一個優(yōu)化器,可以把查詢語句優(yōu)化得飛起。不過,有時候這位謀士也會犯迷糊,比如優(yōu)化過度導(dǎo)致性能下降,讓人哭笑不得。
Spark Streaming這信使,負(fù)責(zé)處理實(shí)時數(shù)據(jù)流。它能實(shí)時接收數(shù)據(jù),然后分發(fā)給Executor執(zhí)行。這位信使跑得飛快,但偶爾也會摔個跟頭,比如數(shù)據(jù)延遲,讓人揪心。
最后來說說Spark MLlib這位倉庫管理員,它負(fù)責(zé)管理機(jī)器學(xué)習(xí)算法庫。這個倉庫里啥都有,分類、回歸、聚類、協(xié)同過濾……總之,你能想到的機(jī)器學(xué)習(xí)算法,它都能給你整出來。不過這位管理員有時候也會犯迷糊,比如算法參數(shù)調(diào)不好,結(jié)果偏差十萬八千里。
Copyright 2024 //m.ahlmtdl.com/ 版權(quán)所有 豫ICP備2021037741號-1 網(wǎng)站地圖