課程亮點(diǎn)
以課堂講解、演示、案例分析為主,輔以互動(dòng)研討、現(xiàn)場(chǎng)答疑、學(xué)以致用。
適用對(duì)象
不限
學(xué)習(xí)目標(biāo)
了解大數(shù)據(jù)業(yè)內(nèi)*新發(fā)展趨勢(shì),深入掌握Hadoop的原理,Hadoop生態(tài)系統(tǒng)
課程內(nèi)容
大數(shù)據(jù)背景與思維
1. 什么是大數(shù)據(jù)
2. 大數(shù)據(jù)技術(shù)的產(chǎn)生背景
3. 大數(shù)據(jù)應(yīng)用場(chǎng)景
4. 大數(shù)據(jù)思維
5. 大數(shù)據(jù)產(chǎn)業(yè)鏈
6. 大數(shù)據(jù)是如何變革各行業(yè)的技術(shù)架構(gòu)、商業(yè)模式和組織方式
7. 大數(shù)據(jù)必備的技術(shù)基礎(chǔ)
*天
Hadoop 2.0
大數(shù)據(jù)基礎(chǔ)理論介紹
Master/Slave結(jié)構(gòu)
消息機(jī)制
RPC原理
Hadoop 1.0 存在的問(wèn)題及現(xiàn)有的解決方案
Hadoop 2.0 各廠商版本對(duì)比
Cloudera
Hontorworks
華為等
Apache Hadoop 大數(shù)據(jù)平臺(tái)全流程解決方案
Cloudera Hadoop 大數(shù)據(jù)平臺(tái)全流程解決方案
HDP Hadoop 大數(shù)據(jù)平臺(tái)解決方案
Hadoop 2.0 項(xiàng)目結(jié)構(gòu)解析
Hadoop工作原理及架構(gòu)
第二天
Hadoop集群運(yùn)維高階實(shí)踐-案例與實(shí)驗(yàn)
運(yùn)行節(jié)點(diǎn)的監(jiān)控
失敗節(jié)點(diǎn)的恢復(fù)
新節(jié)點(diǎn)的添加
Master節(jié)點(diǎn)的HA解決方案
失敗任務(wù)的恢復(fù)
損壞數(shù)據(jù)的恢復(fù)
第三天
Hive架構(gòu)及實(shí)踐案例沙盤(pán)演練
Hive系統(tǒng)部署與搭建
Hive工作機(jī)制
基于Hive的大數(shù)據(jù)加載過(guò)程
Hive程序編寫(xiě)性能建議
MapJoin
數(shù)據(jù)傾斜
Join順序
UDF編寫(xiě)注意事項(xiàng)
快速獲取結(jié)果TopN
通過(guò)Explain觀察Hive行為
動(dòng)手實(shí)驗(yàn):完成Hive的搭建與配置
典型案例分析:基于Hive的大型電信通話(huà)記錄分析示例,詳細(xì)分析Hive的架構(gòu)應(yīng)用、性能調(diào)優(yōu)及其使用場(chǎng)景與整體系統(tǒng)架構(gòu)的結(jié)合
第四天
Spark架構(gòu)及實(shí)踐
案例沙盤(pán)演練
1.2 Spark的重要擴(kuò)展
1.2.1 Spark SQL和Dataframe
1.2.2 Spark Streaming
1.2.3 Spark MLlib和ML
1.2.4 GraphX
1.2.5 SparkR
2.3 運(yùn)行Spark應(yīng)用程序
2.3.1 Local模式運(yùn)行Spark應(yīng)用程序
2.3.2 Standalone模式運(yùn)行Spark應(yīng)用程序
2.3.3 YARN模式運(yùn)行Spark
2.3.4 應(yīng)用程序提交和參數(shù)傳遞
3 Spark程序開(kāi)發(fā)
3.1 使用Spark Shell編寫(xiě)程序
3.1.1 啟動(dòng)Spark Shell
3.1.2 加載text文件
3.1.3 簡(jiǎn)單RDD操作
3.1.4 簡(jiǎn)單RDD操作應(yīng)用
3.1.5 RDD緩存
3.2 構(gòu)建Spark的開(kāi)發(fā)環(huán)境
3.2.1 準(zhǔn)備環(huán)境
3.2.2 構(gòu)建Spark的Eclipse開(kāi)發(fā)環(huán)境
3.2.3 構(gòu)建Spark的IntelliJ IDEA開(kāi)發(fā)環(huán)境
3.3 獨(dú)立應(yīng)用程序編程
3.3.1 創(chuàng)建SparkContext對(duì)象
3.3.2 編寫(xiě)簡(jiǎn)單應(yīng)用程序
3.3.3 編譯并提交應(yīng)用程序
案例實(shí)戰(zhàn):一個(gè)用戶(hù)畫(huà)像的Spark分析實(shí)例, 演練使用Spark進(jìn)行經(jīng)典用戶(hù)畫(huà)像分析的實(shí)例
第五天
Spark Streaming應(yīng)用開(kāi)發(fā)
Spark Streaming Java實(shí)例開(kāi)發(fā)、運(yùn)行
Spark Streaming Java實(shí)例的運(yùn)行過(guò)程分析
Spark Streaming內(nèi)部數(shù)據(jù)傳輸過(guò)程分析
Spark Streaming應(yīng)用開(kāi)發(fā)總結(jié)(API回顧,典型應(yīng)用模式總結(jié))
Spark Streaming消息可靠性保證機(jī)制介紹
Spark Streaming實(shí)時(shí)大數(shù)據(jù)算法解析案例
Spark Streaming實(shí)時(shí)大數(shù)據(jù)報(bào)警案例
Spark Streaming實(shí)時(shí)大數(shù)據(jù)的調(diào)整與改進(jìn)