1.大數(shù)據(jù)架構東西與組件
企業(yè)大數(shù)據(jù)結構的搭建,多是挑選根據(jù)開源技能結構來實現(xiàn)的,這其中就包含Hadoop、Spark、Storm、Flink為主的一系列組件結構,及其生態(tài)圈組件。
2.深化了解SQL和其它數(shù)據(jù)庫解決方案
大數(shù)據(jù)工程師需要了解數(shù)據(jù)庫辦理體系,深化了解SQL。相同其它數(shù)據(jù)庫解決方案,例如Cassandra或MangoDB也須了解,由于不是每個數(shù)據(jù)庫都是由可識別的標準來構建。
3.數(shù)據(jù)倉庫和ETL東西
數(shù)據(jù)倉庫和ETL才能對于大數(shù)據(jù)工程師至關重要。像Redshift或Panoply這樣的數(shù)據(jù)倉庫解決方案,以及ETL東西,比方StitchData或Segment都十分有用。
4.根據(jù)Hadoop的剖析
對根據(jù)Apache Hadoop的數(shù)據(jù)處理結構,需要有深化的了解,至少Hbase,Hive和MapReduce的知識存儲是必需的。
5.編碼
編碼與開發(fā)才能是作為大數(shù)據(jù)工程師的重要要求,主要掌握Java、Scala、Python三門語言,這在大數(shù)據(jù)當中十分關鍵。