課程亮點(diǎn)
師資:*講師團(tuán)隊(duì),豐富行業(yè)經(jīng)驗(yàn)和企業(yè)培訓(xùn)經(jīng)驗(yàn)
特色:小班培訓(xùn),精品課程,面授+直播+錄播,上課方式多樣
培訓(xùn):免費(fèi)重聽(tīng)
適用對(duì)象
不限
課程內(nèi)容
*天
主題1:大數(shù)據(jù)平臺(tái)方案與實(shí)施
大數(shù)據(jù)基礎(chǔ)與發(fā)展過(guò)程
傳統(tǒng)大規(guī)模數(shù)據(jù)處理與分析存在的問(wèn)題
大數(shù)據(jù)計(jì)算框架
離線計(jì)算框架;流式計(jì)算框架;內(nèi)存計(jì)算框架;
大數(shù)據(jù)平臺(tái)方案
CDH 、Hortonworks、MapR;傳統(tǒng)IT公司方案:Oracle Exadata,SAP HANA;核心組件;Hadoop 1.0與2.0版本關(guān)聯(lián)與區(qū)別;Hadoop生態(tài)系統(tǒng);Apache Hadoop方案;國(guó)外主流大數(shù)據(jù)平臺(tái)方案;國(guó)內(nèi)主流大數(shù)據(jù)平臺(tái)方案與廠商;大數(shù)據(jù)平臺(tái)方案比較;
大數(shù)據(jù)的行業(yè)應(yīng)用
大數(shù)據(jù)的落地實(shí)施挑戰(zhàn)
主題2:大數(shù)據(jù)計(jì)算模型(一)–批處理MapReduce
MapReduce編程模型
Map處理;Reduce處理;MapReduce主程序設(shè)置;
MapReduce處理流程
數(shù)據(jù)讀取collect;中間數(shù)據(jù)sort;中間數(shù)據(jù)spill;中間數(shù)據(jù)shuffle;聚合分析reduce;
MapReduce開(kāi)發(fā)高級(jí)應(yīng)用
Combiner技術(shù)與應(yīng)用場(chǎng)景;Partitioner技術(shù)與應(yīng)用場(chǎng)景;多Reducers應(yīng)用;
MapReduce開(kāi)發(fā)與應(yīng)用實(shí)踐
Hadoop平臺(tái)搭建與運(yùn)行;MapReduce安裝與部署;應(yīng)用案例:基于HDFS+MapReduce集成的服務(wù)器日志分析采集、存儲(chǔ)與分析MapReduce程序?qū)嵗_(kāi)發(fā)與運(yùn)行;
主題3:大數(shù)據(jù)存儲(chǔ)系統(tǒng)
HDFS分布式文件系統(tǒng)
NameNode單點(diǎn)故障解決方案;NFS冷備份;block的備份策略;fsimage和editslog;HDFS系統(tǒng)架構(gòu)與原理;NameNode功能詳解;DataNode功能詳解;HDFS讀寫機(jī)制;HDFS高可用方案;
第二天
主題4:Hadoop軟件框架與優(yōu)化
Hadoop1.0框架
Hadoop JobTracker;Hadoop TaskTracker;
Hadoop 2.0 框架
ResourceManager組件;NodeManager組件;ApplicationMaster組件;YARN組件;
Hadoop 2.0 資源調(diào)度優(yōu)化
YARN調(diào)度原理;CapacityScheduler;FairScheduler;
Hadoop框架組件調(diào)優(yōu)
慢啟動(dòng)優(yōu)化;心跳優(yōu)化;容錯(cuò)優(yōu)化;MR計(jì)算框架參數(shù)調(diào)優(yōu);
HDFS調(diào)優(yōu)
RPC線程調(diào)優(yōu);本地文件系統(tǒng)調(diào)優(yōu);RAID與卷管理調(diào)優(yōu);小文件優(yōu)化;
主題5:大數(shù)據(jù)計(jì)算模型(二)實(shí)時(shí)交互計(jì)算– Spark
Spark編程模型
Scala:面向函數(shù)的編程;Scala常見(jiàn)函數(shù)與開(kāi)發(fā);Scala編譯和運(yùn)行;
Spark RDD開(kāi)發(fā)模型
寬依賴;窄依賴;count;collect;saveAsTextFile;map;flatmap;filter;union;reduceByKey;groupByKey;Spark RDD運(yùn)行機(jī)制;Spark RDD主要Transformation;Spark RDD主要Action;Spark RDD依賴關(guān)系;
Spark集群架構(gòu)與關(guān)鍵組件
Spark作業(yè)運(yùn)行機(jī)制
執(zhí)行DAG圖;任務(wù)集;executor執(zhí)行模型;
Spark開(kāi)發(fā)與應(yīng)用實(shí)踐
基于HDFS+Flume+Spark的服務(wù)器運(yùn)行日志實(shí)時(shí)分析Spark程序?qū)嵗_(kāi)發(fā)與運(yùn)行;Spark運(yùn)行環(huán)境搭建與部署;應(yīng)用案例;
主題6:SQL on Hadoop大數(shù)據(jù)查詢
基于MapReduce的大數(shù)據(jù)查詢Hive
列存儲(chǔ)和行存儲(chǔ);Hive架構(gòu)與工作原理;Hive數(shù)據(jù)加載;Hive內(nèi)部表和外部表;Hive分區(qū)表和分通表;Hive的存儲(chǔ)方式;Hive SQL基本操作;
基于Spark的大數(shù)據(jù)查詢SparkSQL
數(shù)據(jù)表讀取、查詢與結(jié)果保存;json;Hive table;Parquet file;RDD;SparkSQL工作原理與執(zhí)行機(jī)制;SparkSQL數(shù)據(jù)模型Dataframe;SparkSQL數(shù)據(jù)讀取與結(jié)果保存;SparkSQL和Hive的區(qū)別與聯(lián)系;實(shí)踐SparkSQL操作;
第三天
主題7:大數(shù)據(jù)計(jì)算模型(三) 流計(jì)算
流數(shù)據(jù)處理應(yīng)用場(chǎng)景
流數(shù)據(jù)處理特點(diǎn);流計(jì)算系統(tǒng):SparkStreaming,Storm對(duì)比;
流數(shù)據(jù)計(jì)算框架:Spark Streaming
基于文件流的SparkStraeming程序;基于socket流的SparkStraeming程序;Spark Streaming基本概念;Spark Streaming數(shù)據(jù)模型DStream;Spark Streaming架構(gòu)與工作機(jī)制;Spark Streaming數(shù)據(jù)源操作;Spark Streaming開(kāi)發(fā)示例;
流數(shù)據(jù)計(jì)算框架:Storm
Spout,Bolt, Topology;Storm基本概念;Storm編程模型;數(shù)據(jù)流分組;并發(fā)度設(shè)置;容錯(cuò)機(jī)制;
主題8:NoSQL數(shù)據(jù)庫(kù)
NoSQL數(shù)據(jù)庫(kù)
Hbase,MongoDB,Redis;關(guān)系型數(shù)據(jù)庫(kù)瓶頸;NoSQL數(shù)據(jù)庫(kù)概念,分類與適用場(chǎng)景;
列存儲(chǔ)NoSQL數(shù)據(jù)庫(kù)Hbase
高表與寬表;rowkey設(shè)計(jì);LSM結(jié)構(gòu)的數(shù)據(jù)組織與讀寫;Hmaster;RegionServer;Zookeeper;行、列簇、時(shí)間戳;Hbase原理與數(shù)據(jù)模型;Hbase系統(tǒng)架構(gòu);Hbase的讀寫機(jī)制;Hbase表的設(shè)計(jì)原則;Hbase適用場(chǎng)景;
主題9:大數(shù)據(jù)采集
RDBMS與Hadoop數(shù)據(jù)轉(zhuǎn)換工具Sqoop
Sqoop工作原理;
文件采集工具Flume
Flume組件與運(yùn)行;Flume常用配置;
Kafka
Kafka基本概念: producer, broker, consumer;Kafka集群架構(gòu);Kafka運(yùn)行機(jī)制;Kafka應(yīng)用場(chǎng)景;