從數(shù)據(jù)的收集開始,到整理歸類發(fā)現(xiàn)其隱藏的信息,再到做出分析報(bào)告,都沒有概念,我們面對(duì)日益發(fā)展的環(huán)境,又該如何進(jìn)行數(shù)據(jù)分析呢?以下是小編為你整理的大數(shù)據(jù)都學(xué)什么 ?
首先,先從采購(gòu)角度入手,為采購(gòu)提供數(shù)據(jù)支持,分析市場(chǎng)行情判斷采購(gòu)節(jié)點(diǎn),想任何工作盡可能更加專業(yè)化發(fā)展,不再依靠經(jīng)驗(yàn)而是靠數(shù)據(jù)說話; ?
其次,要掌握專業(yè)的數(shù)據(jù)分析和挖掘技能,乃至于成為數(shù)據(jù)科學(xué)家,是非常非常艱難的,從零基礎(chǔ)、在短時(shí)間內(nèi)提升數(shù)據(jù)獲取、數(shù)據(jù)分析、數(shù)據(jù)可視化的水平,是完全可能的; ?
接著,數(shù)據(jù)分析都無(wú)疑是一項(xiàng)重中之重的技能,不僅是技術(shù)層面,更包括思維層面;
?
然后,從零學(xué)會(huì)大數(shù)據(jù)核心,數(shù)據(jù)分析系列課程,Udacity-Data Analyst相關(guān)課程,Excel知識(shí),統(tǒng)計(jì)學(xué)知識(shí); ?
再次,入門一個(gè)新領(lǐng)域時(shí),有一個(gè)前輩幫你及時(shí)糾正錯(cuò)誤方向,還有一群互相鼓勵(lì)的小伙伴們是很有必要的; ?
*,每月月會(huì)寫一份當(dāng)月學(xué)習(xí)總結(jié),囊括對(duì)知識(shí)的掌握和時(shí)間安排方面的感悟,并及時(shí)對(duì)計(jì)劃做出適當(dāng)?shù)恼{(diào)整,詳細(xì)規(guī)劃下個(gè)月學(xué)習(xí)任務(wù)的時(shí)間安排; ?
云端的大數(shù)據(jù) ?
“云”其實(shí)指的是多臺(tái)虛擬服務(wù)器的組合,云為不同的使用者提供一個(gè)計(jì)算的平臺(tái)。這就是IaaS(基礎(chǔ)設(shè)置即服務(wù)),亞馬遜的Amazon EC2和Amazon S3就是這樣一個(gè)服務(wù)。 ?
IaaS帶給你的是大數(shù)據(jù)計(jì)算的資源,而PaaS將為您提供更為高級(jí)的大數(shù)據(jù)服務(wù)。所謂平臺(tái)即服務(wù)(PaaS)指的是提供各種開發(fā)解決方案和系統(tǒng)環(huán)境。按需使用的PaaS又稱為中間件,極大的節(jié)省了部署環(huán)境的時(shí)間和成本。 ?
目前主要的大數(shù)據(jù)服務(wù)提供商是Amazon/Microsoft/Google,這些大型的服務(wù)商提供IaaS和PaaS的混合服務(wù),以滿足不同業(yè)務(wù)要求。其中Google專注于大數(shù)據(jù)應(yīng)用的研究上,Amazon發(fā)力提供更多規(guī)模的大數(shù)據(jù)服務(wù)平臺(tái)。 ?
Sqoop ?
Sqoop(發(fā)音:skup)是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(kù)(mysql、postgresql...)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)(例如 : MySQL ,Oracle ,Postgres等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。 ?
1、配置Sqoop 2、使用Sqoop把數(shù)據(jù)從MySQL導(dǎo)入到HDFS中 3、使用Sqoop把數(shù)據(jù)從HDFS導(dǎo)出到MySQL中
?
Storm為分布式實(shí)時(shí)計(jì)算提供了一組通用原語(yǔ),可被用于“流處理”之中,實(shí)時(shí)處理消息并更新數(shù)據(jù)庫(kù)。這是管理隊(duì)列及工作者集群的另一種方式。 Storm也可被用于“連續(xù)計(jì)算”(continuous computation),對(duì)數(shù)據(jù)流做連續(xù)查詢,在計(jì)算時(shí)就將結(jié)果以流的形式輸出給用戶。它還可被用于“分布式RPC”,以并行的方式運(yùn)行昂貴的運(yùn)算。 ?
1、Storm基礎(chǔ)知識(shí):包括Storm的基本概念和Storm應(yīng)用場(chǎng)景,體系結(jié)構(gòu)與基本原理,Storm和Hadoop的對(duì)比 2、Storm集群搭建:詳細(xì)講述Storm集群的安裝和安裝時(shí)常見問題 3、Storm組件介紹: spout、bolt、stream groupings等 4、Storm消息可靠性:消息失敗的重發(fā) 5、Hadoop 2.0和Storm的整合:Storm on YARN 6、Storm編程實(shí)戰(zhàn) ?
Hadoop是什么 ?
Hadoop是一個(gè)大家族,是一個(gè)開源的生態(tài)系統(tǒng),是一個(gè)分布式運(yùn)行系統(tǒng),是基于Java編程語(yǔ)言的架構(gòu)。不過它*明的技術(shù)還是HDFS和MapReduce,使得它可以分布式處理海量數(shù)據(jù)。 ?
HDFS(分布式文件系統(tǒng)): ?
它與現(xiàn)存的文件系統(tǒng)不同的特性有很多,比如高度容錯(cuò)(即使中途出錯(cuò),也能繼續(xù)運(yùn)行),支持多媒體數(shù)據(jù)和流媒體數(shù)據(jù)訪問,高效率訪問大型數(shù)據(jù)集合,數(shù)據(jù)保持嚴(yán)謹(jǐn)一致,部署成本降低,部署效率提交等,如圖是HDFS的基礎(chǔ)架構(gòu) ?
MapReduce(并行計(jì)算架構(gòu)): ?
它可以將計(jì)算任務(wù)拆分成大量可以獨(dú)立運(yùn)行的子任務(wù),接著并行運(yùn)算,另外會(huì)有一個(gè)系統(tǒng)調(diào)度的架構(gòu)負(fù)責(zé)收集和匯總每個(gè)子任務(wù)的分析結(jié)果。其中 包含映射算法與規(guī)約算法。如圖是MapReduce的內(nèi)部計(jì)算步驟 ?
Pig/Hive(Hadoop編程): ?
Pig是一種高級(jí)編程語(yǔ)言,在處理半結(jié)構(gòu)化數(shù)據(jù)上擁有非常高的性能,可以幫助我們縮短開發(fā)周期。 ?
Hive是數(shù)據(jù)分析查詢工具,尤其在使用類SQL查詢分析時(shí)顯示是極高的性能??梢栽诜址昼娡瓿蒃TL要一晚上才能完成的事情,這就是優(yōu)勢(shì),占了先機(jī)! ?