1.大數(shù)據(jù)架構(gòu)東西與組件
企業(yè)大數(shù)據(jù)結(jié)構(gòu)的搭建,多是挑選根據(jù)開源技能結(jié)構(gòu)來實(shí)現(xiàn)的,這其中就包含Hadoop、Spark、Storm、Flink為主的一系列組件結(jié)構(gòu),及其生態(tài)圈組件。
2.深化了解SQL和其它數(shù)據(jù)庫解決方案
大數(shù)據(jù)工程師需要了解數(shù)據(jù)庫辦理體系,深化了解SQL。相同其它數(shù)據(jù)庫解決方案,例如Cassandra或MangoDB也須了解,由于不是每個數(shù)據(jù)庫都是由可識別的標(biāo)準(zhǔn)來構(gòu)建。
3.數(shù)據(jù)倉庫和ETL東西
數(shù)據(jù)倉庫和ETL才能對于大數(shù)據(jù)工程師至關(guān)重要。像Redshift或Panoply這樣的數(shù)據(jù)倉庫解決方案,以及ETL東西,比方StitchData或Segment都十分有用。
4.根據(jù)Hadoop的剖析
對根據(jù)Apache Hadoop的數(shù)據(jù)處理結(jié)構(gòu),需要有深化的了解,至少Hbase,Hive和MapReduce的知識存儲是必需的。
5.編碼
編碼與開發(fā)才能是作為大數(shù)據(jù)工程師的重要要求,主要掌握J(rèn)ava、Scala、Python三門語言,這在大數(shù)據(jù)當(dāng)中十分關(guān)鍵。