1、spark是什么
spark, 是一種通用的大數(shù)據(jù)計算框架, 正如傳統(tǒng)大數(shù)據(jù)技術(shù)hadoop的mapreduce、 hive引擎, 以及storm流式實時計算引擎等。
spark包含了大數(shù)據(jù)領(lǐng)域常見的各種計算框架, 比如:
spark core用于離線計算
spark sql用于交互式查詢
spark streaming用于實時流式計算
spark mllib用于機器學(xué)習(xí)
spark graphx用于圖計算
spark主要用于大數(shù)據(jù)的計算, 而hadoop以后主要用于大數(shù)據(jù)的存儲( 比如hdfs、 hive、 hbase等) , 以及資源調(diào)度( yarn)
spark+hadoop的組合, 是未來大數(shù)據(jù)領(lǐng)域最熱門的組合, 也是最有前景的組合!
2、spark介紹
spark, 是一種one stack to rule them all的大數(shù)據(jù)計算框架, 期望使用一個技術(shù)堆棧就 完美地解決大數(shù)據(jù)領(lǐng)域的各種計算任務(wù)。 apache官方, 對spark的定義就是: 通用的大數(shù)據(jù)快 速處理引擎。
spark使用spark rdd、 spark sql、 spark streaming、 mllib、 graphx成功解決了大數(shù) 據(jù)領(lǐng)域中, 離線批處理、 交互式查詢、 實時流計算、 機器學(xué)習(xí)與圖計算等最重要的任務(wù)和問題。
spark除了一站式的特點之外, 另外一個最重要的特點, 就是基于內(nèi)存進行計算, 從而讓 它的速度可以達到mapreduce、 hive的數(shù)倍甚至數(shù)十倍!
現(xiàn)在已經(jīng)有很多大公司正在生產(chǎn)環(huán)境下深度地使用spark作為大數(shù)據(jù)的計算框架, 包括 ebay、 yahoo!、 bat、 網(wǎng)易、 京東、 華為、 大眾點評、 優(yōu)酷土豆、 搜狗等等。
spark同時也獲得了多個世界頂級it廠商的支持, 包括ibm、 intel等。