亚洲产国偷v产偷v自拍,99久久国产综合精品1尤物,69精品一区二区

無論是在構(gòu)建大數(shù)據(jù)的應用程序，還是僅僅只想從開發(fā)的移動應用中得到一點點啟發(fā)，程序員現(xiàn)在比以往任何時候都需要數(shù)據(jù)分析工具。這絕對是一個好東西，所以很多公司從程序員的需求和技能出發(fā)，構(gòu)建了一些數(shù)據(jù)分析工具。GigaOm的記者Derrick Harris列舉了幾個工具，以下是小編為你整理的怎么學大數(shù)據(jù)分析 ?

BitDeli：BitDeli是今年11月份在舊金山成立的一家初創(chuàng)公司。它能衡量出任何使用Python腳本的應用程序的指標，聯(lián)合創(chuàng)始人兼CEO Ville Tuulos告訴Derrick，腳本可以很簡單，也可以很復雜——甚至未來可以延伸到機器學習。不過和“重量級選手”Hadoop相比，BitDeli自認為是一個輕量級的Ruby。 ?

Continuuity：Continuuity是前Yahoo首席云架構(gòu)師Todd Papaioannou和Facebook HBase的工程師Jonathan Gray的心血結(jié)晶，Continuuity想讓所有的公司都能像Yahoo、Facebook一樣運營。該團隊創(chuàng)建了一個大數(shù)據(jù)工具，它可以簡化Hadoop以及HBase集群的復雜性，而且包含一系列開發(fā)套件，旨在幫助程序員開發(fā)大數(shù)據(jù)應用，該平臺采用Hadoop技術(shù)，允許開發(fā)者在防火墻內(nèi)外對大數(shù)據(jù)應用軟件進行部署、擴展和管理。公司聯(lián)合創(chuàng)始人兼首席執(zhí)行官Todd Papaioannou表示，作為一家初創(chuàng)企業(yè)，Continuuity正在試圖掀起下一波大數(shù)據(jù)應用軟件的浪潮，公司所提供的工具能夠大大提高處于開發(fā)狀態(tài)的軟件不同部分與階段的擴展性。

怎么學大數(shù)據(jù)分析

Flurry：Flurry是移動應用統(tǒng)計分析領(lǐng)域里的標桿，正因為在行業(yè)內(nèi)獨特的優(yōu)勢，它每年的營收高達一億美元。Flurry擁有非常全面的功能，不僅僅只是幫助開發(fā)者構(gòu)建移動應用，它還幫助開發(fā)者分析所有的數(shù)據(jù)，進而產(chǎn)生更大的效益。其實數(shù)據(jù)也支撐了該公司的廣告網(wǎng)絡(luò)，他們通過數(shù)據(jù)分析可以幫助開發(fā)者推送準確的廣告到需要的用戶面前。不過單純從移動應用的數(shù)據(jù)統(tǒng)計功能來看，F(xiàn)lurry絕對是處于領(lǐng)先地位。其功能模塊設(shè)置合理，分析維度全面，分析流程也易于理解。 ?

為什么你應該關(guān)心? ?

Drill和Dremel相比Hadoop更好的分析即席查詢。Hadoop僅僅提供批量的數(shù)據(jù)處理工作流，這些也是缺點。 ?

Hadoop生態(tài)圈使得MapReduce作為一個很親切有利的工具應用于廣告分析。從Sawzall到Pig到Hive,很多接口層應用的建立使得Hadoop更為友好，更接近業(yè)務(wù)，但是，像SQL體系，這些抽象層忽略一個重要的事實–MapReduce(或Hadoop)是為了系統(tǒng)化數(shù)據(jù)處理流程而存在的。如果你不擔心跑的哪些任務(wù)? 如果你不關(guān)心這些產(chǎn)生的問題和去尋求答案，那就保持沉默,保持洞察力?！凹聪剿鳌?— 如果你已經(jīng)承擔數(shù)據(jù)處理，你這么優(yōu)化處理的速度?你不應該運行一個新的任務(wù)或者是等待，有時候考慮的時間還不如在問個新的問題。 ?

在堆對比的工作流基礎(chǔ)的方法論中，很多業(yè)務(wù)驅(qū)動的BI和分析查詢都是很基本的和臨時交互的，低延時分析。寫Map/Reduce工作流在很多業(yè)務(wù)分析中是被禁止的。等待幾分鐘等Jobs啟動，在等幾個小時等執(zhí)行完成這些無溢于數(shù)據(jù)的交互體驗，這些對比，和縮放比較最終產(chǎn)生了基本的新的視野。一些數(shù)據(jù)科學家早已經(jīng)推測Drill和Dremel將優(yōu)于Hadoop，并達成共識，也有一些還在考慮中，還有少部分的狂熱者立即擁抱變化，但是這些是主要的優(yōu)點在更面向查詢的和低延時的情況下。在Infochimps我們喜歡使用Elasticsearch全文索引引擎來實現(xiàn)數(shù)據(jù)庫的數(shù)據(jù)搜索，但是真的在大數(shù)據(jù)處理中我們認為Drill將成為主流。 ?

R是開源的強大的統(tǒng)計編程語言。自1997年以來，超過200萬的統(tǒng)計分析師使用R。這是一門誕生自貝爾實驗室的在統(tǒng)計計算領(lǐng)域的現(xiàn)代版的S語言并迅速地成為了新的標準的統(tǒng)計語言。R使得復雜的數(shù)據(jù)科學變得更廉價。R是SAS和SPASS的重要的領(lǐng)頭者，并作為*秀的統(tǒng)計師的重要工具。 ?

語言需求 ?

javaMR語言 ?

這種語言產(chǎn)生很早了，大家也或多或少的接觸過，但是在大數(shù)據(jù)中使用已經(jīng)有的原型進行構(gòu)建龐大系統(tǒng)，是一種最基本的選擇。 ?

Scala語言 ?

以java為基礎(chǔ)的語言，和java很像，對任何想要進行大規(guī)模的機械學習或是建立高階的算法，Scala是逐漸興起的工具，善于呈現(xiàn)且擁有建立可靠系統(tǒng)的能力。

Hadoop ?

在以java為基礎(chǔ)的大數(shù)據(jù)處理當中，Hadoop為作一批數(shù)據(jù)處理，發(fā)展以java為基礎(chǔ)的架構(gòu)關(guān)鍵。相對于其他處理工具而言，Hadoop慢許多，但是無比的準確可被后端數(shù)據(jù)庫分析廣泛使用 ?

Kafka andStorm ?

它是一個特別快速的查詢信息系統(tǒng)，但是因為太快了在實施操作時會犯錯，有時候會漏掉東西。 ?

Python語言 ?

Python擁有R語言處理復雜數(shù)據(jù)的能力及更務(wù)實的語言特質(zhì)，更簡單和直觀，在近幾年的成長很快。在數(shù)據(jù)處理范疇內(nèi)，通常在規(guī)模與復雜之間要有個選擇，Python無疑當選。 ?

天才領(lǐng)路者

終于明白怎么學大數(shù)據(jù)分析