課程目的:
本課程從基礎(chǔ)的環(huán)境搭建到更深入的知識學(xué)習(xí)都會有一個比較好的講解。
站在想入門Hadoop開發(fā)的初學(xué)者立場和視角,從零開始學(xué)習(xí)Hadoop生態(tài)圈知識,詳細(xì)介紹各個不同組件的安裝、使用等情況,從基本的環(huán)境搭建開始,講解Hadoop生態(tài)圈知識。學(xué)習(xí)完本課程后,學(xué)員對Hadoop生態(tài)圈有一定的了解,并且對Hadoop的基本開發(fā)有一個了解。
課程優(yōu)勢:
Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。以Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)和(Google MapReduce的開源實現(xiàn))為核心的;
Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯性、高伸縮性等優(yōu)點允許用戶將Hadoop部署在低廉(low-cost)的硬件上,形成分布式系統(tǒng);
MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下并發(fā)并行應(yīng)用程序。所以用戶可以利用集群的Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數(shù)據(jù)的處理。
Hadoop是一個開源框架,可編寫和運行分布式應(yīng)用處理大規(guī)模數(shù)據(jù)。
分布式計算是一個寬泛并且不斷變化的領(lǐng)域。
1) 方便:Hadoop運行在由一般商用機器構(gòu)成的大型集群上,或者云計算服務(wù)上,比如EC2。
2) 健壯:Hadoop致力于在一般商用硬件上運行,其架構(gòu)假設(shè)硬件會頻繁失效,Hadoop可以從容地處理大多數(shù)此類故障。
3) 可擴展:Hadoop通過增加集群節(jié)點,可以線性地擴展以處理更大的數(shù)據(jù)集。
4) 簡單:Hadoop允許用戶快速編寫高效的并行代碼。
Hadoop框架的核心是HDFS和MapReduce。其中HDFS是分布式文件系統(tǒng),MapReduce是分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境。掌握了這兩部分,也就掌握了Hadoop核心的東西。