隨著大數(shù)據(jù)技術(shù)的成熟和普及,我們發(fā)現(xiàn)借助于大數(shù)據(jù)技術(shù)可以完美的解決上述問題。根據(jù)目前的需求和對大數(shù)據(jù)相關(guān)軟件的掌握,我們對GPS日志分析系統(tǒng)做了初步的設(shè)計以下是小編為你整理的大數(shù)據(jù)要怎么學(xué) ?
大數(shù)據(jù)日志分析主要是對開源大數(shù)據(jù)組件進行整合開發(fā)而成,分為:數(shù)據(jù)采集層、數(shù)據(jù)預(yù)處理層、數(shù)據(jù)存儲層、數(shù)據(jù)處理層和數(shù)據(jù)分析層等5個層次。 ?
01數(shù)據(jù)采集層 ?
數(shù)據(jù)采集層主要利用開源組件Flume對日志文件進行采集。Flume是一個分布式、高可靠、高可用的海量日志采集軟件,支持定制各類的數(shù)據(jù)發(fā)送方,在收集數(shù)據(jù)的同時能夠?qū)?shù)據(jù)進行簡單的處理,然后寫到各種數(shù)據(jù)接收方。 ?
目前我們是對Flume采集的日志文件做兩個操作,一是直接發(fā)送給kafka進行緩存,二是將數(shù)據(jù)進行壓縮后寫入HDFS供之后的分析用。
02數(shù)據(jù)預(yù)處理 ?
數(shù)據(jù)預(yù)處理主要對日志文件進行初步的簡單處理。目前采用Storm從Kafka接收數(shù)據(jù),然后對數(shù)據(jù)進行實時統(tǒng)計。 ?
Storm是一個分布式、容錯的實時計算系統(tǒng)。它的編程模型非常簡潔,主要包括三個組件:Topology、Spout和Bolt。Topology是一個由多個計算節(jié)點構(gòu)成的拓?fù)鋱D,Spout和Bolt是兩種結(jié)算節(jié)點,它們一起構(gòu)成了一個完整的數(shù)據(jù)流向圖。 ?
目前常用的大數(shù)據(jù)解決方案包括以下幾類 ?
一、Hadoop。Hadoop 是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進行處理的。此外,Hadoop 依賴于社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。 ?
二、HPCC。HPCC,High Performance Computing and Communications(高性能計算與通信)的縮寫。HPCC主要目標(biāo)要達到:開發(fā)可擴展的計算系統(tǒng)及相關(guān)軟件,以支持太位級網(wǎng)絡(luò)傳輸性能,開發(fā)千兆 比特網(wǎng)絡(luò)技術(shù),擴展研究和教育機構(gòu)及網(wǎng)絡(luò)連接能力。 ?
三、Storm。Storm是自由的開源軟件,一個分布式的、容錯的實時計算系統(tǒng)。Storm可以非??煽康奶幚睚嫶蟮臄?shù)據(jù)流,用于處理Hadoop的批量數(shù)據(jù)。 Storm支持許多種編程語言,使用起來非常有趣。Storm由Twitter開源而來,其它*的應(yīng)用企業(yè)包括Groupon、淘寶、支付寶、阿里巴巴、樂元素、Admaster等等。 ?
四、Apache Drill。為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會近日發(fā)起了一項名為“Drill”的開源項目。該項目幫助谷歌實現(xiàn)海量數(shù)據(jù)集的分析處理,包括分析抓取Web文檔、跟蹤安裝在Android Market上的應(yīng)用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構(gòu)建系統(tǒng)上的測試結(jié)果等等。 ?
大數(shù)據(jù)時代下,*、企業(yè)、個人應(yīng)該如何保護隱私 ?
隱私安全的保護,不僅需要先進的技術(shù)來保護,也需要**不斷完善規(guī)章制度,企業(yè)也要遵守行業(yè)規(guī)范,個人也要提高對隱私保護的意識。 ?
1、**應(yīng)該完善相關(guān)的規(guī)章制度。6月1日,《網(wǎng)絡(luò)安全法》正式實施,保障網(wǎng)絡(luò)安全,維護網(wǎng)絡(luò)空間主權(quán)和*安全、社會公共利益,保護公民、法人和其他組織的合法權(quán)益,促進經(jīng)濟社會信息化健康發(fā)展。同時,*也要加強監(jiān)管力度,加強政策法規(guī)的落實,不斷完善《網(wǎng)絡(luò)安全法》。
?
2、企業(yè)應(yīng)當(dāng)遵守行業(yè)規(guī)法。企業(yè)應(yīng)該加強數(shù)據(jù)使用的監(jiān)管,保證數(shù)據(jù)安全不泄露,防止不法分子獲取數(shù)據(jù),減少用戶對數(shù)據(jù)安全的擔(dān)憂,建立強而有效的數(shù)據(jù)隱私保護機制。 ?
3、個人應(yīng)該提高自身隱私安全保護意識。除了*、企業(yè)應(yīng)當(dāng)保護隱私以外,個人也應(yīng)該提高自身的隱私安全保護意識,切勿輕易把個人隱私信息交給他人,從源頭上防止個人隱私泄露。 ?
大數(shù)據(jù)近年來確實在許多方面改進了商業(yè)模式,促進了經(jīng)濟的發(fā)展。但是,發(fā)展是好,我們也要不能忽略掉大數(shù)據(jù)帶來的隱私問題,隱私保護才是重中之重。 ?
利用移動設(shè)備數(shù)據(jù)識別欺詐 ?
行為數(shù)據(jù)中一個比較特殊的就是移動設(shè)備數(shù)據(jù)反欺詐,公司可以利用移動設(shè)備的位置信息來驗證客戶提交的工作地和生活地是否真實,另外來可以根據(jù)設(shè)備安裝的應(yīng)用活躍來識別多頭借貸風(fēng)險。 ?
欺詐用戶一般會使用模擬器進行貸款申請,移動大數(shù)據(jù)可以識別出貸款人是否使用模擬器。欺詐用戶也有一些典型特征,例如很多設(shè)備聚集在一個區(qū)域,一起 申請貸款。欺詐設(shè)備不安裝生活和工具用App,僅僅安裝和貸款有關(guān)的App,可能還安裝了一些密碼破譯軟件或者其他的惡意軟件。 ?
欺詐用戶還有可能不停更換SIM卡和手機,利用SIM卡和手機綁定時間和頻次可以識別出部分欺詐用戶。另外欺詐用戶也會購買一些已經(jīng)淘汰的手機,其機器上面的操作系統(tǒng)已經(jīng)過時很久,所安裝的App版本都很舊。這些特征可以識別出一些欺詐用戶。 ?