現(xiàn)如今大數(shù)據(jù)的使用頻率不斷增加,各個(gè)領(lǐng)域都有鋪天蓋地的信息,面對(duì)成千上萬(wàn)的瀏覽、行為數(shù)據(jù),如果使用以前的軟件來(lái)進(jìn)行數(shù)據(jù)處理是遠(yuǎn)遠(yuǎn)不能滿足的?,F(xiàn)在大數(shù)據(jù)的產(chǎn)生也是應(yīng)運(yùn)而生。以下是小編為你整理的0基礎(chǔ)學(xué)大數(shù)據(jù) ?
javaMR語(yǔ)言 ?
這種語(yǔ)言產(chǎn)生很早了,大家也或多或少的接觸過(guò),但是在大數(shù)據(jù)中使用已經(jīng)有的原型進(jìn)行構(gòu)建龐大系統(tǒng),是一種最基本的選擇。 ?
Scala語(yǔ)言 ?
以java為基礎(chǔ)的語(yǔ)言,和java很像,對(duì)任何想要進(jìn)行大規(guī)模的機(jī)械學(xué)習(xí)或是建立高階的算法,Scala是逐漸興起的工具,善于呈現(xiàn)且擁有建立可靠系統(tǒng)的能力。
?
Hadoop ?
在以java為基礎(chǔ)的大數(shù)據(jù)處理當(dāng)中,Hadoop為作一批數(shù)據(jù)處理,發(fā)展以java為基礎(chǔ)的架構(gòu)關(guān)鍵。相對(duì)于其他處理工具而言,Hadoop慢許多,但是無(wú)比的準(zhǔn)確可被后端數(shù)據(jù)庫(kù)分析廣泛使用 ?
Kafka andStorm ?
它是一個(gè)特別快速的查詢信息系統(tǒng),但是因?yàn)樘炝嗽趯?shí)施操作時(shí)會(huì)犯錯(cuò),有時(shí)候會(huì)漏掉東西。 ?
Pythom語(yǔ)言 ?
Python擁有R語(yǔ)言處理復(fù)雜數(shù)據(jù)的能力及更務(wù)實(shí)的語(yǔ)言特質(zhì),更簡(jiǎn)單和直觀,在近幾年的成長(zhǎng)很快。在數(shù)據(jù)處理范疇內(nèi),通常在規(guī)模與復(fù)雜之間要有個(gè)選擇,Python無(wú)疑當(dāng)選。 ?
大數(shù)據(jù)的特征分析 ?
特征分析是從數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營(yíng)銷人員通過(guò)對(duì)客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。 ?
變化和偏差分析。偏差包括很大一類潛在有趣的知識(shí),如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對(duì)期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識(shí)別、評(píng)價(jià)和預(yù)警等方面。 ?
Web頁(yè)挖掘。隨著Internet的迅速發(fā)展及Web 的全球普及, 使得Web上的信息量無(wú)比豐富,通過(guò)對(duì)Web的挖掘,可以利用Web 的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息,并根據(jù)分析結(jié)果找出企業(yè)管理過(guò)程中出現(xiàn)的各種問(wèn)題和可能引起危機(jī)的先兆,對(duì)這些信息進(jìn)行分析和處理,以便識(shí)別、分析、評(píng)價(jià)和管理危機(jī)。 ?
MLib(機(jī)器學(xué)習(xí)庫(kù)) ?
Spark MLlib是一個(gè)機(jī)器學(xué)習(xí)庫(kù),它提供了各種各樣的算法,這些算法用來(lái)在集群上針對(duì)分類、回歸、聚類、協(xié)同過(guò)濾等。 ?
Streaming(流計(jì)算模型) ?
Spark Streaming支持對(duì)流數(shù)據(jù)的實(shí)時(shí)處理,以微批的方式對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行計(jì)算 ?
?
Kafka(分布式消息隊(duì)列) ?
Kafka是Linkedin于2010年12月份開源的消息系統(tǒng),它主要用于處理活躍的流式數(shù)據(jù)。 ?
活躍的流式數(shù)據(jù)在web網(wǎng)站應(yīng)用中非常常見,這些數(shù)據(jù)包括網(wǎng)站的pv、用戶訪問(wèn)了什么內(nèi)容,搜索了什么內(nèi)容等。 ?
這些數(shù)據(jù)通常以日志的形式記錄下來(lái),然后每隔一段時(shí)間進(jìn)行一次統(tǒng)計(jì)處理。 ?
Phoenix(hbase sql接口) ?
Apache Phoenix 是HBase的SQL驅(qū)動(dòng),Phoenix 使得Hbase 支持通過(guò)JDBC的方式進(jìn)行訪問(wèn),并將你的SQL查詢轉(zhuǎn)換成Hbase的掃描和相應(yīng)的動(dòng)作。 ?
如何學(xué)好Java ?
萬(wàn)丈高樓平地起,首先要學(xué)好java的基礎(chǔ)部分,重點(diǎn)學(xué)習(xí)java SE,尤其要熟練掌握面向?qū)ο?、集合框架,常用的?shù)據(jù)結(jié)構(gòu)、JDBC、異常、IO、線程和網(wǎng)絡(luò)編程,對(duì)于每個(gè)知識(shí)點(diǎn),*是能學(xué)做結(jié)合,開發(fā)一些程序,便于深入了解 ?
基礎(chǔ)學(xué)習(xí)完畢之后,開始進(jìn)入java web部分的學(xué)習(xí),主要是考慮到j(luò)ava web的應(yīng)用范圍很廣,而且招聘的時(shí)候,基本都要求這些。首先學(xué)習(xí)Servlet、JSP的基礎(chǔ)知識(shí),了解httprequest,httpResponse,之后開始學(xué)習(xí)Struts2、Hibernate和Spring,經(jīng)典的SSH框架 ?
在學(xué)習(xí)SSH框架的時(shí)候,平時(shí)要多應(yīng)用,多開發(fā)。同時(shí)需要閱讀一些框架的源代碼程序,了解原理,之后開始自己動(dòng)手寫一些小的框架 ?
做java web方向的時(shí)候,除了后臺(tái)java 代碼需要進(jìn)行學(xué)習(xí)之外,還需要學(xué)習(xí)前臺(tái)的css html jquery 等前臺(tái)開發(fā)框架,同時(shí)需要學(xué)習(xí)后臺(tái)數(shù)據(jù)庫(kù)的配置,以及sql語(yǔ)句的書寫和數(shù)據(jù)庫(kù)的調(diào)優(yōu) ?
java的大數(shù)據(jù)方向,尤其是要學(xué)習(xí)hadoop,spark這些主流的大數(shù)據(jù)框架,學(xué)習(xí)如何使用這些開源工具,在使用的過(guò)程中,了解原理,熟悉源代碼 ?
java的移動(dòng)開發(fā)方向,主要就是學(xué)習(xí)android手機(jī)客戶端程序的開發(fā),學(xué)習(xí)anrdoi的體系架構(gòu),一些常用的組件開發(fā),下拉框,菜單。熟練掌握activity,service的概念 ?