亚洲精品国产一区二区在线-亚洲精品国产专区91在线-亚洲精品国产专区一区-亚洲精品国产字幕久久不卡-亚洲精品国产综合99久久一区

當前位置:首頁 > 結構工程師 > 正文

計算機四級網絡工程師試題結構,計算機四級網絡工程師考試題型

  公司A:

  1.講講你做的過的項目。 項目里有哪些 難點重點注意點呢?

  2.講講多線程吧, 要是你,你怎么實現一個線程池呢?

  3.講一下Mapreduce或者hdfs的原理和機制。map讀取數據分片。

  4.shuffle 是什么? 怎么調優?

  5.項目用什么語言寫? Scala? Scala的特點? 和Java的區別?

  6.理論基礎怎么樣,比如數據結構,里面的快速排序,或者,樹? 講一講你了解的樹的知識?

  7.數學怎么樣呢?

  8.講一下數據庫,SQl ,左外連接, 原理,實現?

  9.還了解過數據的什么知識? 數據庫引擎?

  10.Hadoop的機架怎么配置的?

  11.Hbase的設計有什么心得?

  12.Hbase的操作是用的什么API還是什么工具?

  13.對調度怎么理解.? 用什么工具嗎?

  14.用kettle 這種工具還是 自己寫程序? 你們公司是怎么做的?

  15.你們數據中心開發周期是多長?

  16.你們hbase里面是存一些什么數據。

  二面。三個人。

  1.講講你做的項目。

  2.平時 對多線程 這方面是怎么處理呢? 異步 是怎么思考呢? 遇到的一些鎖啊, 是怎么做的呢? 比如兩個人同時操作一樣東西。怎么做的呢?一些并發操作設計到一些變量怎么做的呢?

  3.你們用的最多是 http協議吧? 有沒有特殊的頭呢? 講講 你對tcp/ip的理解?

計算機四級網絡工程師試題結構,計算機四級網絡工程師考試題型  第1張

  4.有沒有用過Zookeeper呢? Zookeeper的適用場景是什么? HA 狀態維護 分布式鎖 全局配置文件管理 操作Zookeeper是用的什么?

  Spark方面:

  5.spark開發分兩個方面?哪兩個方面呢?

  6.比如 一個讀取hdfs上的文件,然后count有多少行的操作,你可以說說過程嗎。那這個count是在內存中,還是磁盤中計算的呢?磁盤中。

  7.spark和Mapreduce快? 為什么快呢? 快在哪里呢? 1.內存迭代。2.RDD設計。 3,算子的設計。

  8.spark sql又為什么比hive快呢?

  10.RDD的數據結構是怎么樣的? Partition數組。 dependence

  11.hadoop的生態呢。說說你的認識。 hdfs底層存儲 hbase 數據庫 hive數據倉庫 Zookeeper分布式鎖 spark大數據分析

  

  公司B:

  1.Spark工作的一個流程。

  提交任務。

  QQ圖片20161019131411.png

  用戶提交一個任務。 入口是從sc開始的。 sc會去創建一個taskScheduler。根據不同的提交模式, 會根據相應的taskchedulerImpl進行任務調度。

  同時會去創建Scheduler和DAGScheduler。DAGScheduler 會根據RDD的寬依賴或者窄依賴,進行階段的劃分。劃分好后放入taskset中,交給taskscheduler 。

  appclient會到master上注冊。首先會去判斷數據本地化,盡量選最好的本地化模式去執行。

  打散 Executor選擇相應的Executor去執行。ExecutorRunner會去創建CoarseGrainerExecutorBackend進程。 通過線程池的方式去執行任務。

  反向:

  Executor向 SchedulerBackend反向注冊

  Spark On Yarn模式下。 driver負責計算調度。appmaster 負責資源的申請。

  2.Hbase的PUT的一個過程。

  3.RDD算子里操作一個外部map比如往里面put數據。然后算子外再遍歷map。有什么問題嗎。

  4.shuffle的過程。調優。

  5.5個partition里面分布有12345678910.用算子求最大值或者和。不能用廣播變量和累加器。或者sortbykey.

  6.大表和小表join.

  7.知道spark怎么讀hbase嗎?spark on hbase.。華為的。

  8.做過hbase的二級索引嗎?

  9.sort shuffle的優點?

  10.stage怎么劃分的? 寬依賴窄依賴是什么?

  公司W:

  1.講講你做過的項目(一個整體思路)

  2.問問大概情況。公司里集群規模。hbase數據量。數據規模。

  3.然后挑選數據工廠開始詳細問。問hbase.。加閑聊。

  4.問二次排序是什么。topn是什么。二次排序要繼承什么接口?

  5.計算的數據怎么來的。

  6.kakfadirect是什么,。為什么要用這個,有什么優點?。和其他的有什么區別。

計算機四級網絡工程師試題結構,計算機四級網絡工程師考試題型  第2張

  /**

  * Create an input stream that directly pulls messages from Kafka Brokers

  * without using any receiver. This stream can guarantee that each message

  * from Kafka is included in transformations exactly once (see points below).

  *

  * Points to note:

  * - No receivers: This stream does not use any receiver. It directly queries Kafka

  * - Offsets: This does not use Zookeeper to store offsets. The consumed offsets are tracked

  * by the stream itself. For interoperability with Kafka monitoring tools that depend on

  * Zookeeper, you have to update Kafka/Zookeeper yourself from the streaming application.

  * You can access the offsets used in each batch from the generated RDDs (see

  * [[org.apache.spark.streaming.kafka.HasOffsetRanges]]).

  * - Failure Recovery: To recover from driver failures, you have to enable checkpointing

  * in the [[StreamingContext]]. The information on consumed offset can be

  * recovered from the checkpoint. See the programming guide for details (constraints, etc.).

  * - End-to-end semantics: This stream ensures that every records is effectively received and

  * transformed exactly once, but gives no guarantees on whether the transformed data are

  * outputted exactly once. For end-to-end exactly-once semantics, you have to either ensure

  * that the output operation is idempotent, or use transactions to output records atomically.

  * See the programming guide for more details.

  *

  * @param ssc StreamingContext object

  * @param kafkaParams Kafka * configuration parameters. Requires "metadata.broker.list" or "bootstrap.servers"

  * to be set with Kafka broker(s) (NOT zookeeper servers) specified in

  * host1:port1,host2:port2 form.

  * @param fromOffsets Per-topic/partition Kafka offsets defining the (inclusive)

  * starting point of the stream

  * @param messageHandler Function for translating each message and metadata into the desired type

  */

  7.問了shuffle過程。

  8.怎么調優的,jvm怎么調優的?

  9.jvm結構?堆里面幾個區?

  10.數據清洗怎么做的?

  11.怎么用spark做數據清洗

  12.跟我聊了spark的應用,商場里廣告投放,以及黃牛檢測

  13.spark讀取 數據,是幾個Partition呢? hdfs幾個block 就有幾個 Partition?

  14.spark on yarn的兩種模式? client 模式? 和cluster模式?

  15.jdbc?mysql的驅動包名字叫什么?

  16.region多大會分區?

  公司Q

  1.說說Mapreduce?一整個過程的理解。講一下。

  2.hbase存數據用什么rowkey?加時間戳的話,會不會出現時間戳重復的問題,怎么做的呢?

  3.Spring的兩大模塊? AOP,IOC在你們項目中分別是怎么用的呢?

  4.你們集群的規模, 數據量?

  公司M

  1.畫圖,畫Spark的工作模式,部署分布架構圖

  2.畫圖,畫圖講解spark工作流程。以及在集群上和各個角色的對應關系。

  3.java自帶有哪幾種線程池。

  4.數據是怎么收集的。 kafka收集數據的原理?

  5.畫圖,講講shuffle的過程。那你怎么在編程的時候注意避免這些性能問題。

  6.講講列式存儲的 parquet文件底層格式。

  7.dataset和dataframe?

  8.通過什么方式學習spark的?

  9.有哪些數據傾斜,怎么解決?

  10.寬依賴窄依賴?

  11.yarn的原理?

  12.BlockManager怎么管理硬盤和內存的。

  13.哪些算子操作涉及到shuffle

  14.看過源碼? 你熟悉哪幾個部分的源碼?

  15.集群上 nodemanager和ResourceManager的數量關系?

  16.spark怎么整合hive? 大概這樣。 spark on hive 。 hive還是hive 執行引擎是spark。

  其他人的:

  1.Spark如何處理結構化數據,Spark如何處理非結構話數據?

  2.Spark性能優化主要有哪些手段?

  3.簡要描述Spark分布式集群搭建的步驟

  4.對于Spark你覺得他對于現有大數據的現狀的優勢和劣勢在哪里?

  5.對于算法是否進行過自主的研究設計?

  6.簡要描述你了解的一些數據挖掘算法與內容 基本我有印象的就這幾個問題,聊了2個多小時,腦子都差點被問干了

  圖文來自網絡、如涉及版權問題,請聯系我們以便處理。文章內容純屬作者個人觀點,不代表本網觀點。

發表評論

主站蜘蛛池模板: 亚洲精品国产经典一区二区 | 日本久久久免费高清 | 福利一区二区三区视频午夜观看 | 免费人成网ww44kk44 | 害羞的清纯女神露脸在线视频 | 国产精品一区二 | 日韩不卡高清视频 | 亚洲精品一二三 | 99九九成人免费视频精品 | 亚洲色图欧美一区 | 久久国产精品影院 | 亚洲天堂久久新 | 国语对白清晰好大好白在线 | 麻豆视频秘密入口 | 亚洲无线一二三四区手机 | 精品美女视频在线观看2023 | a毛片久久免费观看 | 国产成人无精品久久久 | 亚洲精品国产第一区第二区国 | 3344成年站福利在线视频免费 | 在线一区免费视频播放 | 欧美ol丝袜高跟秘书在线观看 | 久久九九亚洲精品 | 中国一级特黄特爽刺激大片 | 久久精品国产2020观看福利色 | 国产精品亚洲午夜一区二区三区 | 免费在线观看中文字幕 | 国产日产精品_国产精品毛片 | 可以在线看黄的网站 | 日本黄大片在线观看 | 亚洲综合网址 | 中文字幕一区视频 | 亚洲高清日韩精品第一区 | 日韩在线1| 国产在线精品二区韩国演艺界 | 制服丝袜综合第八页 | 免费日本一区 | 国产欧美日韩不卡一区二区三区 | 国产香蕉在线 | 国产毛片自拍 | 黄色录像视频网站 |