大數據開發作為這兩年一個火熱的工作崗位,不光是企業的要求嚴格,競爭力也是比較大的。不管薪資多少,大數據的幾個技術棧肯定是要熟練掌握的,下面我們就來看看一些企業面試時常問的幾個問題:
1.大數據基礎面試題
(1)spark sql 數據優化中,需要注意哪些方面?
a.使用臨時視圖減少落到磁盤, 不落到磁盤盤是spark的一個優勢,中間步驟 全部用 temporary view 代替臨時table ,減少讀寫hdfs的操作
b.spark下建表 文件格式選擇,spark默認為textfile,可根據需求使用squenceFile or ORCFile
c.select 指定字段,代替select *
d.spark其他技術,如broadcast, bucket
e.另外spark sql優化還可通過查看sparkUI找到哪一步耗時比較長,針對性優化
(2)如何自定義一個函數供 HiveSql 使用,具體步驟分為哪幾步?
Hive使用python編寫的自定義函數UDF進行ETL的步驟:
在hive里面加載py文件
add file /usr/local/src/test.py
在HQL中使用TRANSFORM函數動態執行Python文件:
select TRANSFORM(sex) USING ‘python test.py’ as sex from test;
2.大數據常見問題
(1)講述一個自己掌握的核心技術,以及如何應用?
J2EE:大數據采集單元,大數據分析單元的主要工作,如何做出服務,如何SpringBoot集成Hadoop,Spark。
Hadoop:多少個節點,高并發,高可用的實際問題中解決數據傾斜,數據處理,數據統計,數據離線分析等。
Spark:實時處理中的數據處理,比如算子,復雜的SQL語句等。
機器學習 :分析的數據集生成,數據處理,數據建模,數據預測,數據模型調優。
系統設計:設計數據流,分業務和分模塊說。
·個人價值:代碼行數,關鍵問題處理等。
以上就是關于大數據開發的一些面試題了,還有很多的面試題需要大家多看看,想要得到一個好的工作,面試前的一些準備是很重要的。