大數(shù)據(jù)不是某個專業(yè)或一門編程語言,實際上它是一系列技術的組合運用。需要掌握 編程技巧、 數(shù)據(jù)結構和算法、分析能力、 數(shù)據(jù)庫技能、數(shù)學 、 機器學習、 NLP、 OS 、 并行編程等等,需要學習的東西很多。
學習路徑主要包括入門知識、 Java 基礎、 Scala 基礎、 Hadoop 技術模塊 、 Hadoop 項目實戰(zhàn)、 Spark 技術模塊、 大數(shù)據(jù)項目實戰(zhàn)。入門知識需要掌握握基本的數(shù)據(jù)庫知識。Java 是目前使用廣泛的編程語言,適合作為大數(shù)據(jù)應用的開發(fā)語言。重要的一點是 Hadoop 是用 Java 編寫的。
Scala 是一種多范式的編程語言,其設計的初衷是要集成面向對象編程和函數(shù)式編程的各種特性。Hadoop 是一款支持數(shù)據(jù)密集型分布式應用并以 Apache 2.0 許可協(xié)議發(fā)布的開源軟件框架,它能搭建大型數(shù)據(jù)倉庫,PB 級別數(shù)據(jù)的存儲、處理、分析、統(tǒng)計等業(yè)務。學完理論就要進行動手實戰(zhàn)了,Hadoop 項目實戰(zhàn)可以幫助加深對內容的理解,并鍛煉動手能力。Spark 和 Hadoop 都是大數(shù)據(jù)框架。
大數(shù)據(jù)實戰(zhàn)項目是對常用技能的系統(tǒng)運用,想要成為Java大數(shù)據(jù)工程師,通過大量的實戰(zhàn)項目積累經(jīng)驗是不可少的。