大數(shù)據(jù)目前這個(gè)詞很火,作為編程人員是必須學(xué)習(xí)的基礎(chǔ)知識(shí)之一,對(duì)于其它行業(yè)的同時(shí),了解一下大數(shù)據(jù)也是非常有必要的,也許你們公司將來(lái)有一天就會(huì)使用大數(shù)據(jù)技術(shù)來(lái)分析你們公司的發(fā)展方向,畢竟這是一個(gè)大數(shù)據(jù)時(shí)代。以下是小編為你整理的學(xué)習(xí)大數(shù)據(jù)有什么用 ?
首先簡(jiǎn)介一下大數(shù)據(jù)能夠干什么:首先舉個(gè)例子,大家都喜歡上淘寶買(mǎi)東西,淘寶網(wǎng)站會(huì)記錄每個(gè)人在它網(wǎng)站上都買(mǎi)了什么,瀏覽了什么。。。等等一系列信息。然后分析什么產(chǎn)品賣(mài)的火爆,哪個(gè)客戶喜歡買(mǎi)什么,那個(gè)商家盈利高等等,挖掘一系列有潛在價(jià)值 ?
其次分析一下大數(shù)據(jù)的含義,大數(shù)據(jù)既然含有數(shù)據(jù)這個(gè)詞匯,就表明他是和數(shù)據(jù)相關(guān)的,而數(shù)據(jù)無(wú)非就是如何存儲(chǔ)數(shù)據(jù)和如何使用存儲(chǔ)的數(shù)據(jù)這兩個(gè)問(wèn)題
?
首先說(shuō)一下如何存儲(chǔ):傳統(tǒng)的數(shù)據(jù)都是保存在關(guān)系型數(shù)據(jù)庫(kù),比如oracle和mysql等,這些數(shù)據(jù)庫(kù)存儲(chǔ)空間是有限的,并且數(shù)據(jù)庫(kù)的東西多了之后,查詢存取的速度會(huì)變得很慢,根本做數(shù)據(jù)分析等。此外傳統(tǒng)數(shù)據(jù)都安裝在一臺(tái)服務(wù)器上,一旦服務(wù)器宕機(jī)了,數(shù)據(jù)庫(kù)的內(nèi)容就全部銷(xiāo)毀了,無(wú)法恢復(fù) ?
大數(shù)據(jù)的含義就是說(shuō)數(shù)據(jù)量很大,數(shù)據(jù)量達(dá)到pb級(jí)別,大公司也許需要幾千臺(tái)服務(wù)器才能存儲(chǔ),用的是分布式存儲(chǔ)技術(shù)。所謂的分布式存儲(chǔ)技術(shù)是指,同樣一份文件,分別存儲(chǔ)在3臺(tái)不同的服務(wù)器上,假設(shè)其中服務(wù)器掛機(jī)了,還有另外兩臺(tái)服務(wù)器工作,并且迅速備份一份文件,始終保證相同文件有3臺(tái)服務(wù)器提供工作 ?
大數(shù)據(jù)的使用主要是指根據(jù)公司需求,對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行挖掘分析。而挖掘分析做的最多的就是查詢數(shù)據(jù),大數(shù)據(jù)的查詢速度是非??斓?,因?yàn)榈讓佑玫氖穷愃朴趌ucene技術(shù)。但是大數(shù)據(jù)不適合修改存儲(chǔ)的文件。因?yàn)榇髷?shù)據(jù)存儲(chǔ)數(shù)據(jù)是以文件的形式存儲(chǔ)的,如果想修改數(shù)據(jù),它會(huì)把原先的文件刪掉,然后重新寫(xiě)入。 ?
*什么人適合學(xué)習(xí)大數(shù)據(jù):一般做數(shù)據(jù)的公司通常都會(huì)要求你會(huì)大數(shù)據(jù),其次互聯(lián)網(wǎng)行業(yè)也用到了大數(shù)據(jù)相關(guān)的部分技術(shù),比如:zookeeper,但是你要想找到一份好的工作,大數(shù)據(jù)知識(shí)是必須有所了解。 ?
大數(shù)據(jù)處理需要什么語(yǔ)言 ?
R語(yǔ)言:它的有點(diǎn)在于簡(jiǎn)單易上手,通過(guò)R語(yǔ)言,你可以從復(fù)雜的數(shù)據(jù)集中篩選你想要的數(shù)據(jù),從負(fù)責(zé)的模型函數(shù)中操作數(shù)據(jù),建立有序的圖表呈現(xiàn)數(shù)字,只需要幾行代碼就可以了,比如說(shuō),像是好動(dòng)版本的Excel表格。 ?
Pythom語(yǔ)言:Python結(jié)合了R語(yǔ)言的快速,處理復(fù)雜數(shù)據(jù)的能力以及更務(wù)實(shí)的語(yǔ)言特質(zhì),迅速地成為主流,也更簡(jiǎn)單和直觀了,尤其是近幾年的成長(zhǎng)很快。在數(shù)據(jù)處理范疇內(nèi),通常在規(guī)模與復(fù)雜之間要有個(gè)取舍,Python以折中的姿態(tài)出現(xiàn),是相當(dāng)好的數(shù)據(jù)處理工具。 ?
java語(yǔ)言:java沒(méi)有和Python和R語(yǔ)言一樣好的可視化功能,也不是統(tǒng)計(jì)建模的*工具,但是如果你需要建立一個(gè)龐大的系統(tǒng),使用過(guò)去的原型,java是最基本的選擇了。 ?
Hadoop pand Hive:為了迎合大量數(shù)據(jù)處理的需求,以java為基礎(chǔ)的大數(shù)據(jù)開(kāi)始了。Hadoop為一批數(shù)據(jù)處理,發(fā)展以java為基礎(chǔ)的架構(gòu)關(guān)鍵,相對(duì)于其他處理工具,Hadoop慢許多,但是無(wú)比的準(zhǔn)確可被后端數(shù)據(jù)庫(kù)分析廣泛使用,和Hive搭配的很好。 ?
Scala:另一個(gè)以java為基礎(chǔ)的語(yǔ)言,和java很像,對(duì)任何想要進(jìn)行大規(guī)模的機(jī)械學(xué)習(xí)或是建立高階的算法,Scala是逐漸興起的工具,善于呈現(xiàn)且擁有建立可靠系統(tǒng)的能力, ?
Kafkaand Storm:是一個(gè)特別快速的查詢信息系統(tǒng),缺點(diǎn)是太快了,因此在實(shí)施操作時(shí)會(huì)犯錯(cuò),有時(shí)候會(huì)漏掉東西。使用Scala寫(xiě)出來(lái)的架構(gòu),大幅增加他在串流處理的受歡迎程度, ?
HTML ?
HTML標(biāo)簽名和屬性都是不區(qū)分大小寫(xiě)的,例如、或都是定義相同的標(biāo)記,但推薦全部使用小寫(xiě)字母書(shū)寫(xiě)。 ?
HTML屬性一般都出現(xiàn)在HTML標(biāo)簽中, 是HTML標(biāo)簽的一部分。 ?
標(biāo)簽可以有屬性,它包含了額外的信息.屬性的值一定要在雙引號(hào)中。 ?
標(biāo)簽可以擁有多個(gè)屬性。 ?
屬性由屬性名和值成對(duì)出現(xiàn)。 ?
大多數(shù)的瀏覽器都支持顏色名集合,顏色值是一個(gè)關(guān)鍵字或一個(gè)RGB格式的數(shù)字,在網(wǎng)頁(yè)中用得很多。 ?
BASE(分布式列存數(shù)據(jù)庫(kù))
?
源自Google的Bigtable論文,發(fā)表于2006年11月,HBase是Google Bigtable克隆版 ?
HBase是一個(gè)建立在HDFS之上,面向列的針對(duì)結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫(kù)。 ?
HBase采用了BigTable的數(shù)據(jù)模型:增強(qiáng)的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳構(gòu)成。 ?
HBase提供了對(duì)大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫(xiě)訪問(wèn),同時(shí),HBase中保存的數(shù)據(jù)可以使用MapReduce來(lái)處理,它將數(shù)據(jù)存儲(chǔ)和并行計(jì)算完美地結(jié)合在一起。 ?
大數(shù)據(jù)是什么
大數(shù)據(jù)是最近IT界最常用的術(shù)語(yǔ)之一。然而對(duì)大數(shù)據(jù)的定義也不盡相同,所有已知的論點(diǎn)例如結(jié)構(gòu)化的和非結(jié)構(gòu)化、大規(guī)模的數(shù)據(jù)等等都不夠完整。大數(shù)據(jù)系統(tǒng)通常被認(rèn)為具有數(shù)據(jù)的五個(gè)主要特征,通常稱為數(shù)據(jù)的5 Vs。分別是大規(guī)模,多樣性,高效性、準(zhǔn)確性和價(jià)值性。 ?
據(jù)Gartner稱,大規(guī)??梢员欢x為“在本(地)機(jī)數(shù)據(jù)采集和處理技術(shù)能力不足以為用戶帶來(lái)商業(yè)價(jià)值。當(dāng)現(xiàn)有的技術(shù)能夠針對(duì)性的進(jìn)行改造后來(lái)處理這種規(guī)模的數(shù)據(jù)就可以說(shuō)是一個(gè)成功的大數(shù)據(jù)解決方案。 ?
這種大規(guī)模的數(shù)據(jù)沒(méi)將不僅僅是來(lái)自于現(xiàn)有的數(shù)據(jù)源,同時(shí)也會(huì)來(lái)自于一些新興的數(shù)據(jù)源,例如常規(guī)(手持、工業(yè))設(shè)備,日志,汽車(chē)等,當(dāng)然包括結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。 ?
據(jù)Gartner稱,多樣性可以定義如下:“高度變異的信息資產(chǎn),在生產(chǎn)和消費(fèi)時(shí)不進(jìn)行嚴(yán)格定義的包括多種形式、類型和結(jié)構(gòu)的組合。同時(shí)還包括以前的歷史數(shù)據(jù),由于技術(shù)的變革歷史數(shù)據(jù)同樣也成為多樣性數(shù)據(jù)之一 “。 ?
高效性可以被定義為來(lái)自不同源的數(shù)據(jù)到達(dá)的速度。從各種設(shè)備,傳感器和其他有組織和無(wú)組織的數(shù)據(jù)流都在不斷進(jìn)入IT系統(tǒng)。由此,實(shí)時(shí)分析和對(duì)于該數(shù)據(jù)的解釋(展示)的能力也應(yīng)該隨之增加。 ?
根據(jù)Gartner,高效性可以被定義如下:“高速的數(shù)據(jù)流I/O(生產(chǎn)和消費(fèi)),但主要聚焦在一個(gè)數(shù)據(jù)集內(nèi)或多個(gè)數(shù)據(jù)集之間的數(shù)據(jù)生產(chǎn)的速率可變上”。 ?
準(zhǔn)確性,或真實(shí)性或叫做精度是數(shù)據(jù)的另一個(gè)重要組成方面。要做出正確的商業(yè)決策,當(dāng)務(wù)之急是在數(shù)據(jù)上進(jìn)行的所有分析必須是正確和準(zhǔn)確(精確)的。 ?
大數(shù)據(jù)系統(tǒng)可以提供巨大的商業(yè)價(jià)值。像電信,金融,電子商務(wù),社交媒體等,已經(jīng)認(rèn)識(shí)到他們的數(shù)據(jù)是一個(gè)潛在的巨大的商機(jī)。他們可以預(yù)測(cè)用戶行為,并推薦相關(guān)產(chǎn)品,提供危險(xiǎn)交易預(yù)警服務(wù),等等。 ?
與其他IT系統(tǒng)一樣,性能是大數(shù)據(jù)系統(tǒng)獲得成功的關(guān)鍵。本文的中心主旨是要說(shuō)明如何讓大數(shù)據(jù)系統(tǒng)保證其性能。