在 中級數(shù)據(jù)分析師的基礎(chǔ)上要求掌握 JAVA 語言和 linux 操作系統(tǒng)知識(shí),能夠掌握運(yùn)用Hadoop、Spark、Storm 等至少一門專業(yè)大數(shù)據(jù)分析軟件,從海量數(shù)據(jù)中提取相關(guān)信息,并能夠結(jié)合 R、Python 等軟件,形成嚴(yán)密的數(shù)據(jù)分析報(bào)告。就業(yè)方向:通常在*、金融、電信、零售、互聯(lián)網(wǎng)、電商、醫(yī)學(xué)等行業(yè)專門從事數(shù)據(jù)分析與云端大數(shù)據(jù)的人員。以下是小編為你整理的學(xué)習(xí)大數(shù)據(jù)先學(xué)什么 ?
java基礎(chǔ): ?
1. Java 語言的發(fā)展史、java 開發(fā)環(huán)境搭建以及環(huán)境變量的配置,java 語言跨平臺(tái)的原理,java 程序初次開發(fā) ?
2. Java 語法格式,關(guān)鍵字,標(biāo)識(shí)符,注釋,常量,數(shù)據(jù)類型,數(shù)據(jù)類型轉(zhuǎn)換,運(yùn)算符 ?
3. 程序流程控制語句以及其應(yīng)用場景 ?
4. 數(shù)組的應(yīng)用及其常見操作 ?
5. 類和對象的概念、類和對象之間的關(guān)系
?
6. 類的組成部分(成員變量,構(gòu)造方法,成員方法)及其詳細(xì)講解 ?
7. 面向?qū)ο蟮娜筇匦裕豪^承、封裝 及其特點(diǎn)剖析 ?
8. 接口和抽象類及其特點(diǎn)分析 ?
9. java 的異常處理機(jī)制 ?
10. jdk API 常用類的講解:Math,Random、String,StringBuffer,Date ?
11. Java I/O 體系介紹:File 類的介紹和常用操作,字節(jié)流 InputStream 和OutputStream,字符流 Reader 和 Writer,以及相應(yīng)實(shí)現(xiàn)類的介紹和使用,緩沖流和序列化流的的詳解,IO 性能分析,字節(jié)和字符的轉(zhuǎn)化流,包裝流的概念,以及常用包裝類。 ?
數(shù)據(jù)來源 ?
大數(shù)據(jù)分析的數(shù)據(jù)來源有很多種,包括公司或者機(jī)構(gòu)的內(nèi)部來源和外部來源。分為以下幾類: ?
1.交易數(shù)據(jù)。包括POS機(jī)數(shù)據(jù)、信用卡刷卡數(shù)據(jù)、電子商務(wù)數(shù)據(jù)、互聯(lián)網(wǎng)點(diǎn)擊數(shù)據(jù)、“企業(yè)資源規(guī)劃”(ERP)系統(tǒng)數(shù)據(jù)、銷售系統(tǒng)數(shù)據(jù)、客戶關(guān)系管理(CRM)系統(tǒng)數(shù)據(jù)、公司的生產(chǎn)數(shù)據(jù)、庫存數(shù)據(jù)、訂單數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)等。 ?
2.移動(dòng)通信數(shù)據(jù)。能夠上網(wǎng)的智能手機(jī)等移動(dòng)設(shè)備越來越普遍。移動(dòng)通信設(shè)備記錄的數(shù)據(jù)量和數(shù)據(jù)的立體完整度,常常優(yōu)于各家互聯(lián)網(wǎng)公司掌握的數(shù)據(jù)。移動(dòng)設(shè)備上的軟件能夠追蹤和溝通無數(shù)事件,從運(yùn)用軟件儲(chǔ)存的交易數(shù)據(jù)(如搜索產(chǎn)品的記錄事件)到個(gè)人信息資料或狀態(tài)報(bào)告事件(如地點(diǎn)變更即報(bào)告一個(gè)新的地理編碼)等。 ?
3.人為數(shù)據(jù)。人為數(shù)據(jù)包括電子郵件、文檔、圖片、音頻、視頻,以及通過微信、博客、推特、維基、臉書、Linkedin等社交媒體產(chǎn)生的數(shù)據(jù)流。這些數(shù)據(jù)大多數(shù)為非結(jié)構(gòu)性數(shù)據(jù),需要用文本分析功能進(jìn)行分析。 ?
4.機(jī)器和傳感器數(shù)據(jù)。來自感應(yīng)器、量表和其他設(shè)施的數(shù)據(jù)、定位/GPS系統(tǒng)數(shù)據(jù)等。這包括功能設(shè)備會(huì)創(chuàng)建或生成的數(shù)據(jù),例如智能溫度控制器、智能電表、工廠機(jī)器和連接互聯(lián)網(wǎng)的家用電器的數(shù)據(jù)。來自新興的物聯(lián)網(wǎng)(Io T)的數(shù)據(jù)是機(jī)器和傳感器所產(chǎn)生的數(shù)據(jù)的例子之一。來自物聯(lián)網(wǎng)的數(shù)據(jù)可以用于構(gòu)建分析模型,連續(xù)監(jiān)測預(yù)測性行為(如當(dāng)傳感器值表示有問題時(shí)進(jìn)行識(shí)別),提供規(guī)定的指令(如警示技術(shù)人員在真正出問題之前檢查設(shè)備)等。 ?
利用黑名單和灰名單識(shí)別風(fēng)險(xiǎn) ?
互聯(lián)網(wǎng)金融公司面臨的主要風(fēng)險(xiǎn)為惡意欺詐,70%左右的信貸損失來源于申請人的惡意欺詐??蛻粲馄诨蛘哌`約貸款中至少有30%左右可以收回,另外的一些可以通過催收公司進(jìn)行催收,M2逾期的回收率在20%左右。 ?
市場上有近百家的公司從事個(gè)人征信相關(guān)工作,其主要的商業(yè)模式是反欺詐識(shí)別,灰名單識(shí)別,以及客戶征信評分。反欺詐識(shí)別中,重要的一個(gè)參考就是黑名單,市場上領(lǐng)先的大數(shù)據(jù)風(fēng)控公司擁有將近1000萬左右的黑名單,大部分黑名單是過去十多年積累下來的老賴名單,真正有價(jià)值的黑名單在兩百萬左右。
?
黑名單來源于民間借貸、線上P2P、信用卡公司、小額借貸等公司的歷史違約用戶,其中很大一部分不再有借貸行為,參考價(jià)值有限。另外一個(gè)主要來源是催收公司,催收的成功率一般小于于30%(M3以上的),會(huì)產(chǎn)生很多黑名單。 ?
灰名單是逾期但是還沒有達(dá)到違約的客戶(逾期少于3個(gè)月的客戶),灰名單也還意味著多頭借貸,申請人在多個(gè)貸款平臺(tái)進(jìn)行借貸??偨杩顢?shù)目遠(yuǎn)遠(yuǎn)超過其還款能力。 ?
黑名單和灰名單是很好的風(fēng)控方式,但是各個(gè)征信公司所擁有的名單僅僅是市場總量的一部分,很多互聯(lián)網(wǎng)金融公司不得不接入多個(gè)風(fēng)控公司,來獲得更多的 黑名單來提高查得率。央行和上海經(jīng)信委正在聯(lián)合多家互聯(lián)網(wǎng)金融公司建立統(tǒng)一的黑名單平臺(tái),但是很多互聯(lián)網(wǎng)金融公司都不太愿意貢獻(xiàn)自家的黑名單,這些黑名單 是用真金白銀換來的教訓(xùn)。另外如果讓外界知道了自家平臺(tái)黑名單的數(shù)量,會(huì)影響其公司聲譽(yù),降低公司估值,并令投資者質(zhì)疑其平臺(tái)的風(fēng)控水平。 ?
大數(shù)據(jù)會(huì)帶來哪些安全隱患 ?
數(shù)據(jù)收集時(shí)帶來的風(fēng)險(xiǎn):在大數(shù)據(jù)環(huán)境中,可以通過用戶的網(wǎng)址搜索記錄、手機(jī)上網(wǎng)記錄、淘寶購物記錄等信息來獲取用戶的信息,如興趣愛好、日常生活等。但是,這些數(shù)據(jù)的收集其實(shí)都是在用戶未知的情況下進(jìn)行的,用戶是不清楚自己的這些信息是被用于哪些用途,亦或是誰用了這些信息,也不清楚這些信息泄露以后是由誰來負(fù)責(zé)。因此,在這樣的情況下,用戶的個(gè)人信息隱私安全是非常危險(xiǎn)的。 ?
安全漏洞多,數(shù)據(jù)泄露風(fēng)險(xiǎn)大:部分大型公司的安全漏洞比較多,而且這些公司也可能會(huì)存在對用戶數(shù)據(jù)的違規(guī)使用,其安全協(xié)議過于寬松。因此,一旦泄露,就非常危險(xiǎn),因?yàn)椴簧俟菊莆盏挠脩魯?shù)據(jù)不僅僅是一個(gè)號碼一個(gè)地址那么簡單,而是可能是銀行卡信息。 ?
在數(shù)據(jù)分析和挖掘的時(shí)候,可能會(huì)分析出用戶的隱私信息,匿名就再無作用:在分析與挖掘有價(jià)值的信息時(shí),很大可能會(huì)分析出用戶的隱私信息,不但有泄露隱私的風(fēng)險(xiǎn),同時(shí)也可能導(dǎo)致隱私保護(hù)的方法失效,例如匿名。 ?
無意識(shí)歧視:其實(shí)這樣的情況目前已經(jīng)非常普遍,當(dāng)你申請貸款、工作招聘等時(shí)候,決策者非常依賴大數(shù)據(jù)來幫助他們做出決定,因此很可能會(huì)出現(xiàn)無意識(shí)地根據(jù)種族、性別或者年齡篩選,出現(xiàn)歧視的情況。 ?
數(shù)據(jù)相互融合能夠推理出個(gè)人所有的敏感信息:數(shù)據(jù)的融合使多個(gè)數(shù)據(jù)融合在一體,從而識(shí)別出相應(yīng)的實(shí)體。通常從一些非常簡單的數(shù)據(jù)收集,如用戶的購物記錄、網(wǎng)上搜索記錄等。殊不知,在數(shù)據(jù)融合的時(shí)候,非常容易地能夠推測出一個(gè)人所有的敏感信息,甚至能推測出你的性格,預(yù)測你的動(dòng)向,給個(gè)人安全帶來非常大的威脅。 ?