課程目的:
本課程從基礎(chǔ)的環(huán)境搭建到更深入的知識(shí)學(xué)習(xí)都會(huì)有一個(gè)比較好的講解。
站在想入門Hadoop開發(fā)的初學(xué)者立場(chǎng)和視角,從零開始學(xué)習(xí)Hadoop生態(tài)圈知識(shí),詳細(xì)介紹各個(gè)不同組件的安裝、使用等情況,從基本的環(huán)境搭建開始,講解Hadoop生態(tài)圈知識(shí)。學(xué)習(xí)完本課程后,學(xué)員對(duì)Hadoop生態(tài)圈有一定的了解,并且對(duì)Hadoop的基本開發(fā)有一個(gè)了解。
課程優(yōu)勢(shì):
Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開源分布式計(jì)算平臺(tái)。以Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)和(Google MapReduce的開源實(shí)現(xiàn))為核心的;
Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在低廉(low-cost)的硬件上,形成分布式系統(tǒng);
MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下并發(fā)并行應(yīng)用程序。所以用戶可以利用集群的Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建自己的分布式計(jì)算平臺(tái),并且可以充分利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理。
Hadoop是一個(gè)開源框架,可編寫和運(yùn)行分布式應(yīng)用處理大規(guī)模數(shù)據(jù)。
分布式計(jì)算是一個(gè)寬泛并且不斷變化的領(lǐng)域。
1) 方便:Hadoop運(yùn)行在由一般商用機(jī)器構(gòu)成的大型集群上,或者云計(jì)算服務(wù)上,比如EC2。
2) 健壯:Hadoop致力于在一般商用硬件上運(yùn)行,其架構(gòu)假設(shè)硬件會(huì)頻繁失效,Hadoop可以從容地處理大多數(shù)此類故障。
3) 可擴(kuò)展:Hadoop通過增加集群節(jié)點(diǎn),可以線性地?cái)U(kuò)展以處理更大的數(shù)據(jù)集。
4) 簡(jiǎn)單:Hadoop允許用戶快速編寫高效的并行代碼。
Hadoop框架的核心是HDFS和MapReduce。其中HDFS是分布式文件系統(tǒng),MapReduce是分布式數(shù)據(jù)處理模型和執(zhí)行環(huán)境。掌握了這兩部分,也就掌握了Hadoop核心的東西。