計算機四級網絡工程師試題結構,計算機四級網絡工程師考試題型
公司A:
1.講講你做的過的項目。 項目里有哪些 難點重點注意點呢?
2.講講多線程吧, 要是你,你怎么實現一個線程池呢?
3.講一下Mapreduce或者hdfs的原理和機制。map讀取數據分片。
4.shuffle 是什么? 怎么調優?
5.項目用什么語言寫? Scala? Scala的特點? 和Java的區別?
6.理論基礎怎么樣,比如數據結構,里面的快速排序,或者,樹? 講一講你了解的樹的知識?
7.數學怎么樣呢?
8.講一下數據庫,SQl ,左外連接, 原理,實現?
9.還了解過數據的什么知識? 數據庫引擎?
10.Hadoop的機架怎么配置的?
11.Hbase的設計有什么心得?
12.Hbase的操作是用的什么API還是什么工具?
13.對調度怎么理解.? 用什么工具嗎?
14.用kettle 這種工具還是 自己寫程序? 你們公司是怎么做的?
15.你們數據中心開發周期是多長?
16.你們hbase里面是存一些什么數據。
二面。三個人。
1.講講你做的項目。
2.平時 對多線程 這方面是怎么處理呢? 異步 是怎么思考呢? 遇到的一些鎖啊, 是怎么做的呢? 比如兩個人同時操作一樣東西。怎么做的呢?一些并發操作設計到一些變量怎么做的呢?
3.你們用的最多是 http協議吧? 有沒有特殊的頭呢? 講講 你對tcp/ip的理解?
4.有沒有用過Zookeeper呢? Zookeeper的適用場景是什么? HA 狀態維護 分布式鎖 全局配置文件管理 操作Zookeeper是用的什么?
Spark方面:
5.spark開發分兩個方面?哪兩個方面呢?
6.比如 一個讀取hdfs上的文件,然后count有多少行的操作,你可以說說過程嗎。那這個count是在內存中,還是磁盤中計算的呢?磁盤中。
7.spark和Mapreduce快? 為什么快呢? 快在哪里呢? 1.內存迭代。2.RDD設計。 3,算子的設計。
8.spark sql又為什么比hive快呢?
10.RDD的數據結構是怎么樣的? Partition數組。 dependence
11.hadoop的生態呢。說說你的認識。 hdfs底層存儲 hbase 數據庫 hive數據倉庫 Zookeeper分布式鎖 spark大數據分析
公司B:
1.Spark工作的一個流程。
提交任務。
QQ圖片20161019131411.png
用戶提交一個任務。 入口是從sc開始的。 sc會去創建一個taskScheduler。根據不同的提交模式, 會根據相應的taskchedulerImpl進行任務調度。
同時會去創建Scheduler和DAGScheduler。DAGScheduler 會根據RDD的寬依賴或者窄依賴,進行階段的劃分。劃分好后放入taskset中,交給taskscheduler 。
appclient會到master上注冊。首先會去判斷數據本地化,盡量選最好的本地化模式去執行。
打散 Executor選擇相應的Executor去執行。ExecutorRunner會去創建CoarseGrainerExecutorBackend進程。 通過線程池的方式去執行任務。
反向:
Executor向 SchedulerBackend反向注冊
Spark On Yarn模式下。 driver負責計算調度。appmaster 負責資源的申請。
2.Hbase的PUT的一個過程。
3.RDD算子里操作一個外部map比如往里面put數據。然后算子外再遍歷map。有什么問題嗎。
4.shuffle的過程。調優。
5.5個partition里面分布有12345678910.用算子求最大值或者和。不能用廣播變量和累加器。或者sortbykey.
6.大表和小表join.
7.知道spark怎么讀hbase嗎?spark on hbase.。華為的。
8.做過hbase的二級索引嗎?
9.sort shuffle的優點?
10.stage怎么劃分的? 寬依賴窄依賴是什么?
公司W:
1.講講你做過的項目(一個整體思路)
2.問問大概情況。公司里集群規模。hbase數據量。數據規模。
3.然后挑選數據工廠開始詳細問。問hbase.。加閑聊。
4.問二次排序是什么。topn是什么。二次排序要繼承什么接口?
5.計算的數據怎么來的。
6.kakfadirect是什么,。為什么要用這個,有什么優點?。和其他的有什么區別。
/**
* Create an input stream that directly pulls messages from Kafka Brokers
* without using any receiver. This stream can guarantee that each message
* from Kafka is included in transformations exactly once (see points below).
*
* Points to note:
* - No receivers: This stream does not use any receiver. It directly queries Kafka
* - Offsets: This does not use Zookeeper to store offsets. The consumed offsets are tracked
* by the stream itself. For interoperability with Kafka monitoring tools that depend on
* Zookeeper, you have to update Kafka/Zookeeper yourself from the streaming application.
* You can access the offsets used in each batch from the generated RDDs (see
* [[org.apache.spark.streaming.kafka.HasOffsetRanges]]).
* - Failure Recovery: To recover from driver failures, you have to enable checkpointing
* in the [[StreamingContext]]. The information on consumed offset can be
* recovered from the checkpoint. See the programming guide for details (constraints, etc.).
* - End-to-end semantics: This stream ensures that every records is effectively received and
* transformed exactly once, but gives no guarantees on whether the transformed data are
* outputted exactly once. For end-to-end exactly-once semantics, you have to either ensure
* that the output operation is idempotent, or use transactions to output records atomically.
* See the programming guide for more details.
*
* @param ssc StreamingContext object
* @param kafkaParams Kafka * configuration parameters. Requires "metadata.broker.list" or "bootstrap.servers"
* to be set with Kafka broker(s) (NOT zookeeper servers) specified in
* host1:port1,host2:port2 form.
* @param fromOffsets Per-topic/partition Kafka offsets defining the (inclusive)
* starting point of the stream
* @param messageHandler Function for translating each message and metadata into the desired type
*/
7.問了shuffle過程。
8.怎么調優的,jvm怎么調優的?
9.jvm結構?堆里面幾個區?
10.數據清洗怎么做的?
11.怎么用spark做數據清洗
12.跟我聊了spark的應用,商場里廣告投放,以及黃牛檢測
13.spark讀取 數據,是幾個Partition呢? hdfs幾個block 就有幾個 Partition?
14.spark on yarn的兩種模式? client 模式? 和cluster模式?
15.jdbc?mysql的驅動包名字叫什么?
16.region多大會分區?
公司Q
1.說說Mapreduce?一整個過程的理解。講一下。
2.hbase存數據用什么rowkey?加時間戳的話,會不會出現時間戳重復的問題,怎么做的呢?
3.Spring的兩大模塊? AOP,IOC在你們項目中分別是怎么用的呢?
4.你們集群的規模, 數據量?
公司M
1.畫圖,畫Spark的工作模式,部署分布架構圖
2.畫圖,畫圖講解spark工作流程。以及在集群上和各個角色的對應關系。
3.java自帶有哪幾種線程池。
4.數據是怎么收集的。 kafka收集數據的原理?
5.畫圖,講講shuffle的過程。那你怎么在編程的時候注意避免這些性能問題。
6.講講列式存儲的 parquet文件底層格式。
7.dataset和dataframe?
8.通過什么方式學習spark的?
9.有哪些數據傾斜,怎么解決?
10.寬依賴窄依賴?
11.yarn的原理?
12.BlockManager怎么管理硬盤和內存的。
13.哪些算子操作涉及到shuffle
14.看過源碼? 你熟悉哪幾個部分的源碼?
15.集群上 nodemanager和ResourceManager的數量關系?
16.spark怎么整合hive? 大概這樣。 spark on hive 。 hive還是hive 執行引擎是spark。
其他人的:
1.Spark如何處理結構化數據,Spark如何處理非結構話數據?
2.Spark性能優化主要有哪些手段?
3.簡要描述Spark分布式集群搭建的步驟
4.對于Spark你覺得他對于現有大數據的現狀的優勢和劣勢在哪里?
5.對于算法是否進行過自主的研究設計?
6.簡要描述你了解的一些數據挖掘算法與內容 基本我有印象的就這幾個問題,聊了2個多小時,腦子都差點被問干了
圖文來自網絡、如涉及版權問題,請聯系我們以便處理。文章內容純屬作者個人觀點,不代表本網觀點。
免責聲明: 本站提供的任何內容版權均屬于相關版權人和權利人,如有侵犯你的版權。 請來信指出,我們將于第一時間刪除! 所有資源均由免費公共網絡整理而來,僅供學習和研究使用。請勿公開發表或 用于商業用途和盈利用途。
本文鏈接:http://m.w-link.com.cn/jiegou/31294.html
發表評論