課程亮點
師資:*講師團隊,豐富行業(yè)經(jīng)驗和企業(yè)培訓經(jīng)驗
特色:小班培訓,精品課程,面授+直播+錄播,上課方式多樣
培訓:免費重聽
適用對象
不限
學習目標
掌握大數(shù)據(jù)分析與機器學習的完整流程
課程內容
*天
大數(shù)據(jù)分析挖掘算法
內容一:大數(shù)據(jù)分析挖掘算法
1.業(yè)界常見的大數(shù)據(jù)分析應用場景以及對應的分析算法模型應用,及其案例
2.常用的統(tǒng)計分析模型的介紹,包括方差分析、線性擬合、回歸、邏輯回歸、因子分析、主成分分析、時間序列分析的基礎知識
3.常用的數(shù)據(jù)挖掘模型介紹,重點介紹六類機器學習與挖掘模型算法
4.業(yè)界主流的數(shù)據(jù)倉庫工具和數(shù)據(jù)分析挖掘相關工具軟件的應用概述
內容二:機器學習
1.機器學習概念、發(fā)展歷程
2.機器學習的應用場景
3.機器學習與統(tǒng)計分析
4.無監(jiān)督式學習概述
5.有監(jiān)督式學習概述
6.半監(jiān)督式學習概述
7.強化學習概述
8.人工神經(jīng)網(wǎng)絡學習概述
9.深度學習概述
10.機器學習的應用場景和應用案例
第二天
Spark大數(shù)據(jù)實時與高性能處理平臺剖析
內容:Spark大數(shù)據(jù)實時與高性能處理平臺剖析
1.Spark實時大數(shù)據(jù)處理平臺架構
2.Spark編程模型以及Spark編程實例解析
3.Spark RDD內存彈性分布式數(shù)據(jù)集的工作原理與機制
4.Spark Core的核心組件剖析
5.Spark系統(tǒng)架構和運行過程剖析
6.Spark on Yarn運行原理和實例
7.Spark RDD transform、滑動窗口、foreachRDD性能優(yōu)化、持久化、checkpoint、容錯與事務、與Spark SQL整合使用
8.基于Spark的實時數(shù)據(jù)倉庫與實時分析挖掘處理的應用實踐,以及應用案例
第三天
Spark SQL應用實戰(zhàn)
內容:Spark SQL應用實戰(zhàn)
1.Spark SQL實時數(shù)據(jù)倉庫的實現(xiàn)原理與操作
2.Spark SQL核心代碼剖析
3.Spark SQL客戶端開發(fā)包API
4.Spark SQL實時統(tǒng)計應用
5.Spark SQL應用程序開發(fā)實踐
第四天
Spark Streaming應用實戰(zhàn)
內容:Spark Streaming應用實戰(zhàn)
1.Streaming與Storm在實時流計算處理應用場景下的案例與比較
2.Spark Streaming與Spark交互的實現(xiàn)機制
3.Spark Streaming的核心代碼剖析
4.Spark Streaming客戶端編程實踐
5.Spark Streaming實時流數(shù)據(jù)分析處理應用開發(fā)實踐
第五天
數(shù)據(jù)預處理與特征選擇
內容一:數(shù)據(jù)預處理
1.數(shù)據(jù)抽取、轉換和加載
2.數(shù)據(jù)清洗
3.特征處理
內容二:特征選擇與降維
1.特征選擇概述
2.Filter
3.Wrapper
4.Embedded
5.特征擴增
6.降維、PCA、LDA、LLE、SVD
第六天
機器學習算法
內容一:有監(jiān)督學習
1.KNN算法
2.決策樹算法
3.SVM算法
4.樸素貝葉斯算法
5.邏輯回歸算法
6.線性回歸算法
7.集成算法
內容二:無監(jiān)督學習
1.聚類算法
2.關聯(lián)算法
內容三:模型評估與優(yōu)化
1.模型優(yōu)化與評估概念
2.*優(yōu)化模型
3.模型評估與選擇
第七天
Spark MLlib數(shù)據(jù)挖掘
內容:Spark MLlib數(shù)據(jù)挖掘
1. Spark MLlib概述
2. Spark MLlib評估矩陣
3. Spark MLlib關聯(lián)規(guī)則與推薦算法
4. Spark MLlib聚類與降維
5. Spark MLlib分類與回歸
6. Spark MLlib特征提取和轉換
7. Spark MLlib基礎統(tǒng)計分析
第八天
大數(shù)據(jù)挖掘案例
內容:綜合實驗
1. 房價售價預測
2. 個人收入分群
3.移民的簽證預測
4.銀行辦理定期存款業(yè)務預測