大數(shù)據(jù)技術(shù)發(fā)展到目前已經(jīng)經(jīng)歷了幾個階段,在很多企業(yè)都已經(jīng)形成了相對成熟穩(wěn)定的架構(gòu),如何了解其發(fā)展中的概況。以下是小編為你整理的大數(shù)據(jù)是學(xué)什么的 ?
大數(shù)據(jù)系統(tǒng)的演化歷程包括:解決數(shù)據(jù)規(guī)模問題,解決使用門檻問題,解決計(jì)算延遲問題,解決復(fù)雜場景問題。 ?
大數(shù)據(jù)的整體架構(gòu)可以按以下分層:數(shù)據(jù)源、數(shù)據(jù)采集Agent、數(shù)據(jù)存儲、數(shù)據(jù)計(jì)算和數(shù)據(jù)應(yīng)用。 ?
數(shù)據(jù)源從內(nèi)部來講一般來自于企業(yè)的各個數(shù)據(jù)中心,外部一般從互聯(lián)網(wǎng)獲取,也可能與其他企業(yè)或機(jī)構(gòu)通過交換傳輸。
?
數(shù)據(jù)的采集通常有批處理的傳送,或者基于kafka等組件的實(shí)時接口,采集要確保準(zhǔn)確高效。 ?
數(shù)據(jù)的存儲方式也包含多種,可以基于hadoop的分布式文件系統(tǒng),或者基于hbase分布式數(shù)據(jù)庫,也可以基于Kafka。 ?
數(shù)據(jù)的計(jì)算包括離線分析(Hive、Spark、MR),即席查詢/多維分析(Presto、SparkSQL、Kylin)和實(shí)時計(jì)算引擎(Flink、Spark Streaming)。 ?
大數(shù)據(jù)運(yùn)營和傳統(tǒng)運(yùn)營有什么區(qū)別 ?
大數(shù)據(jù)基于網(wǎng)絡(luò)有自己優(yōu)勢,可以短時間收集全世界數(shù)據(jù),作為后盾分析,利用,預(yù)測但是確定,過于依賴軟件,有時候不一定精準(zhǔn),比如我有一次到京東商城看一個產(chǎn)品圖片,本來意圖不是為了買 ?
這個這個產(chǎn)品,可是京東后來一直給我發(fā)這個產(chǎn)品廣告?zhèn)鹘y(tǒng)運(yùn)營基于周圍群體,公司員工個人經(jīng)驗(yàn),范圍狹隘但是比較精準(zhǔn), 因?yàn)橐磺羞\(yùn)營最終圍繞人來進(jìn)行,了解人,才算精準(zhǔn),只有人更能實(shí)際 ?
觀察對方的內(nèi)在,外在,機(jī)器目前無法做到一個做生意的人,可以觀察客戶的一舉一動,任何表情,知道客戶需要什么可是機(jī)器目前還無法做到這么細(xì)微 ?
如果把大數(shù)據(jù)和個人分析綜合起來,這樣大數(shù)據(jù)運(yùn)營更加完美,事實(shí)上,現(xiàn)在很多大公司,也是這么做的,分析師很重要,依靠大數(shù)據(jù),但是不局限于大數(shù)據(jù),自己觀察和經(jīng)驗(yàn)也是重要參考之一 ?
大數(shù)據(jù)概念的結(jié)構(gòu) ?
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。 ?
其次,想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,我著手從三個層面來展開: ?
*層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
?
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進(jìn)的基石。在這里分別從云計(jì)算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個過程。 ?
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),*的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個人的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。 ?
數(shù)據(jù)安全以及對于性能的影響 ?
像任何IT系統(tǒng)一樣安全性要求也對大數(shù)據(jù)系統(tǒng)的性能有很大的影響。在本節(jié)中,我們討論一下安全對大數(shù)據(jù)平臺性能的影響。 ?
- 首先確保所有的數(shù)據(jù)源都是經(jīng)過認(rèn)證的。即使所有的數(shù)據(jù)源都是安全的,并且沒有針對安全方面的需求,那么你可以靈活設(shè)計(jì)一個安全模塊來配置實(shí)現(xiàn)。 ?
- 數(shù)據(jù)進(jìn)過一次認(rèn)證,那么就不要進(jìn)行二次認(rèn)證。如果實(shí)在需要進(jìn)行二次認(rèn)證,那么使用一些類似于token的技術(shù)保存下來以便后續(xù)繼續(xù)使用。這將節(jié)省數(shù)據(jù)一遍遍認(rèn)證的開銷。 ?
- 您可能需要支持其他的認(rèn)證方式,例如基于PKI解決方案或Kerberos。每一個都有不同的性能指標(biāo),在最終方案確定前需要將其考慮進(jìn)去。 ?
- 通常情況下數(shù)據(jù)壓縮后進(jìn)入大數(shù)據(jù)處理系統(tǒng)。這么做好處非常明顯不細(xì)說。 ?
- 針對不同算法的效率、對cpu的使用量你需要進(jìn)行比較來選出一個傳輸量、cpu使用量等方面均衡的壓縮算法。 ?
- 同樣,評估加密邏輯和算法,然后再選擇。 ?
- 明智的做法是敏感信息始終進(jìn)行限制。 ?
- 在審計(jì)跟蹤表或登錄時您可能需要維護(hù)記錄或類似的訪問,更新等不同的活動記錄。這可能需要根據(jù)不同的監(jiān)管策略和用戶需求個性化的進(jìn)行設(shè)計(jì)和修改。 ?
- 注意,這種需求不僅增加了數(shù)據(jù)處理的復(fù)雜度,但會增加存儲成本。 ?
- 盡量使用下層提供的安全技術(shù),例如操作系統(tǒng)、數(shù)據(jù)庫等。這些安全解決方案會比你自己設(shè)計(jì)開發(fā)性能要好很多。