數(shù)據(jù)是大數(shù)據(jù)風(fēng)控的核心,大數(shù)據(jù)要求的不但是數(shù)據(jù)多,更要求維度豐富;而風(fēng)控則是對市場、信用以及操作層面的風(fēng)險(xiǎn)控制。以下是小編為你整理的大數(shù)據(jù)處理學(xué)習(xí) ?
在大數(shù)據(jù)風(fēng)控這個(gè)行業(yè)里混,需要了解用戶,了解場景,而這些往往都可以通過數(shù)據(jù)間接反映出來。 ?
比如,用戶在某一時(shí)期內(nèi)在多家機(jī)構(gòu)申請過貸款,那說明該用戶目前借錢意愿強(qiáng)烈,即使歷史征信良好,也要用策略攔住他的申請,因?yàn)樗芸赡艹霈F(xiàn)拆東墻補(bǔ)西墻的可能。
?
因此,用數(shù)據(jù)說話是一種方法論。不同數(shù)據(jù)對于風(fēng)險(xiǎn)的作用不同,獲取難度也不同,這就決定了并非對每個(gè)用戶都能獲取到其各個(gè)維度的信息。 ?
同時(shí),有很多特征只有很少的用戶才會有,也因此造就了數(shù)據(jù)的稀疏性。 ?
如何將稀疏數(shù)據(jù)用在各種機(jī)器學(xué)習(xí)模型中,則正是要考察模型人員對于風(fēng)險(xiǎn)及產(chǎn)品理解的時(shí)候了。 ?
要做好大數(shù)據(jù)風(fēng)控,除了數(shù)據(jù),模型就是最重要的了。模型有很多,如一般的線性回歸,Logistic回歸以及深度學(xué)習(xí)等,在實(shí)際的業(yè)務(wù)場景中,有的可能單一模型就能達(dá)到很好的效果,有的則需要幾個(gè)模型的結(jié)合,而具體使用哪個(gè)模型用哪些特征,則是要考察模型人員對業(yè)務(wù)和算法的理解了。 ?
再說一下大數(shù)據(jù)風(fēng)控的直觀感受。傳統(tǒng)風(fēng)控更像是冷兵器時(shí)代的戰(zhàn)爭,雖有協(xié)作但更多的是各作戰(zhàn)單位憑借個(gè)人能力的大混戰(zhàn);而大數(shù)據(jù)風(fēng)控則像是現(xiàn)代戰(zhàn)爭中的立體作戰(zhàn),各個(gè)作戰(zhàn)單位(數(shù)據(jù))在統(tǒng)一的指揮中樞(算法)里高度協(xié)同作戰(zhàn)。大數(shù)據(jù)風(fēng)控能將相似的人更精準(zhǔn)的分群,會讓你看到形形色色更加的人,會讓你從紛繁的單一的數(shù)據(jù)中看到其背后的萬千世界。 ?
總之,做數(shù)據(jù)做模型前一定要理解人,做完數(shù)據(jù)模型后還要能夠解釋人。 ?
初識數(shù)據(jù)分析 ?
這個(gè)階段是你學(xué)習(xí)數(shù)據(jù)分析的*個(gè)月。核心的三本書就是:統(tǒng)計(jì)學(xué)、R IN ACTION、深入淺出數(shù)據(jù)分析。*星期:好好的閱讀一下統(tǒng)計(jì)學(xué)這本教材。按照每天3個(gè)小時(shí)的時(shí)間,一個(gè)星期你至少能看完8章。踏踏實(shí)實(shí)的看完,課后習(xí)題不需要做,重點(diǎn)放在理解公式推導(dǎo)以及專業(yè)名字定義的理解上。第二星期:有了統(tǒng)計(jì)學(xué)基礎(chǔ),R語言學(xué)習(xí)起來就不會太費(fèi)勁?!禦 in action》 是公認(rèn)的R語言經(jīng)典教材。 ?
跟著書上的代碼仔細(xì)的敲一筆遍,你不需要全部看完這本書,只需要學(xué)會前8章左右就差不多了。 學(xué)完后你會對統(tǒng)計(jì)學(xué)有一個(gè)更深的認(rèn)識~第三個(gè)星期:《深入淺出數(shù)據(jù)分析》這本書很大頭,不是因?yàn)樗鼉?nèi)容多,而是因?yàn)樗鼜U話和插圖多。 ?
很有意思的一本入門級別的教材,花一個(gè)星期好好的讀一下,能學(xué)多少是多少。第四個(gè)星期:查漏補(bǔ)缺。經(jīng)過前三個(gè)星期的學(xué)習(xí),你一定有不少的疑惑或者遺忘了某些知識。不要著急,這個(gè)星期就是用來好好回顧一下你本月所學(xué)的東西,不懂的定義再看看,不會的代碼再敲敲,不懂的知識再google一下~ ?
大數(shù)據(jù)的經(jīng)典案例 ?
梅西百貨的實(shí)時(shí)定價(jià)機(jī)制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達(dá)7300萬種貨品進(jìn)行實(shí)時(shí)調(diào)價(jià)。 ?
Tipp24 AG針對歐洲博彩業(yè)構(gòu)建的下注和預(yù)測平臺。該公司用KXEN軟件來分析數(shù)十億計(jì)的交易以及客戶的特性,然后通過預(yù)測模型對特定用戶進(jìn)行動態(tài)的營銷活動。這項(xiàng)舉措減少了90%的預(yù)測模型構(gòu)建時(shí)間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉(zhuǎn)其長久以來在預(yù)測分析方面的劣勢?!盠aney分析到。
?
沃爾瑪?shù)乃阉鳌_@家零售業(yè)寡頭為其網(wǎng)站W(wǎng)almart.com自行設(shè)計(jì)了*的搜索引擎Polaris,利用語義數(shù)據(jù)進(jìn)行文本分析、機(jī)器學(xué)習(xí)和同義詞挖掘等。根據(jù)沃爾瑪?shù)恼f法,語義搜索技術(shù)的運(yùn)用使得在線購物的完成率提升了10%到15%。“對沃爾瑪來說,這就意味著數(shù)十億美元的金額?!盠aney說。 ?
快餐業(yè)的視頻分析(Laney沒有說出這家公司的名字)。該公司通過視頻分析等候隊(duì)列的長度,然后自動變化電子菜單顯示的內(nèi)容。如果隊(duì)列較長,則顯示可以快速供給的食物;如果隊(duì)列較短,則顯示那些利潤較高但準(zhǔn)備時(shí)間相對長的食品。 ?
ranger(安全管理工具) ?
Apache ranger是一個(gè)hadoop集群權(quán)限框架,提供操作、監(jiān)控、管理復(fù)雜的數(shù)據(jù)權(quán)限,它提供一個(gè)集中的管理機(jī)制,管理基于yarn的hadoop生態(tài)圈的所有數(shù)據(jù)權(quán)限。 ?
knox(hadoop安全網(wǎng)關(guān)) ?
Apache knox是一個(gè)訪問hadoop集群的restapi網(wǎng)關(guān),它為所有rest訪問提供了一個(gè)簡單的訪問接口點(diǎn),能完成3A認(rèn)證(Authentication,Authorization,Auditing)和SSO(單點(diǎn)登錄)等 ?
falcon(數(shù)據(jù)生命周期管理工具) ?
Apache Falcon 是一個(gè)面向Hadoop的、新的數(shù)據(jù)處理和管理平臺,設(shè)計(jì)用于數(shù)據(jù)移動、數(shù)據(jù)管道協(xié)調(diào)、生命周期管理和數(shù)據(jù)發(fā)現(xiàn)。它使終端用戶可以快速地將他們的數(shù)據(jù)及其相關(guān)的處理和管理任務(wù)“上載(onboard)”到Hadoop集群。 ?
Ambari(安裝部署配置管理工具) ?
Apache Ambari 的作用來說,就是創(chuàng)建、管理、監(jiān)視 Hadoop 的集群,是為了讓 Hadoop 以及相關(guān)的大數(shù)據(jù)軟件更容易使用的一個(gè)web工具。 ?