大數(shù)據(jù)不是某個專業(yè)或一門編程語言,實際上它是一系列技術(shù)的組合運用。需要掌握 編程技巧、 數(shù)據(jù)結(jié)構(gòu)和算法、分析能力、 數(shù)據(jù)庫技能、數(shù)學(xué) 、 機器學(xué)習、 NLP、 OS 、 并行編程等等,需要學(xué)習的東西很多。
學(xué)習路徑主要包括入門知識、 Java 基礎(chǔ)、 Scala 基礎(chǔ)、 Hadoop 技術(shù)模塊 、 Hadoop 項目實戰(zhàn)、 Spark 技術(shù)模塊、 大數(shù)據(jù)項目實戰(zhàn)。入門知識需要掌握握基本的數(shù)據(jù)庫知識。Java 是目前使用廣泛的編程語言,適合作為大數(shù)據(jù)應(yīng)用的開發(fā)語言。重要的一點是 Hadoop 是用 Java 編寫的。
Scala 是一種多范式的編程語言,其設(shè)計的初衷是要集成面向?qū)ο缶幊毯秃瘮?shù)式編程的各種特性。Hadoop 是一款支持數(shù)據(jù)密集型分布式應(yīng)用并以 Apache 2.0 許可協(xié)議發(fā)布的開源軟件框架,它能搭建大型數(shù)據(jù)倉庫,PB 級別數(shù)據(jù)的存儲、處理、分析、統(tǒng)計等業(yè)務(wù)。學(xué)完理論就要進行動手實戰(zhàn)了,Hadoop 項目實戰(zhàn)可以幫助加深對內(nèi)容的理解,并鍛煉動手能力。Spark 和 Hadoop 都是大數(shù)據(jù)框架。
大數(shù)據(jù)實戰(zhàn)項目是對常用技能的系統(tǒng)運用,想要成為Java大數(shù)據(jù)工程師,通過大量的實戰(zhàn)項目積累經(jīng)驗是不可少的。