尚硅谷大数据技术之高频面试题_尚硅谷_新浪博客

新浪博客

加载中…

http://blog.sina.com.cn/u/3272253032

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

尚硅谷大数据技术之高频面试题

(2019-12-01 19:51:52)

标签：

it

java培训

linux

大数据

尚硅谷

目录

第1章面试说明

1.1 面试的本质

1.2 面试过程最关键的是什么？

1.3 面试时该怎么说？

1.4 面试技巧

1.4.1 六个常见问题

1.4.2 两个注意事项

1.4.3 自我介绍（控制在4分半以内，不超过5分钟）

第2章手写代码

2.3 手写Spark-WordCount

2.4 冒泡排序

2.5 二分查找

2.6 二叉树之Scala实现

2.6.1 二叉树概念

2.6.2 二叉树的特点

2.6.3 二叉树的Scala代码实现

第3章项目架构

3.1 数仓概念

3.2 系统数据流程设计

3.3 框架版本选型

3.4 服务器选型

3.5 集群规模

3.6 人员配置参考

3.6.1 整体架构。

3.6.2 你们部门的职级等级，晋升规则

3.6.3 人员配置参考

第4章项目涉及技术

4.1 Linux&Shell相关总结

4.1.1 Linux常用命令

4.1.2 Shell常用工具

4.2 Hadoop相关总结

4.2.1 Hadoop常用端口号

4.2.2 Hadoop配置文件以及简单的Hadoop集群搭建

4.2.3 HDFS读流程和写流程

4.2.4 MapReduce的Shuffle过程及Hadoop优化（包括：压缩、小文件、集群优化）

4.2.5 Yarn的Job提交流程

4.2.6 Yarn的默认调度器、调度器分类、以及他们之间的区别

4.2.7 项目经验之LZO压缩

4.2.8 Hadoop参数调优

4.2.9 项目经验之基准测试

4.2.10 Hadoop宕机

4.3 Zookeeper相关总结

4.3.1 选举机制

4.3.2 常用命令

4.4 Flume相关总结

4.4.1 Flume组成，Put事务，Take事务

4.4.2 Flume拦截器

4.4.3 Flume Channel选择器

4.4.4 Flume监控器

4.4.5 Flume采集数据会丢失吗?

4.4.6 Flume内存

4.4.7 FileChannel优化

4.4.8 HDFS Sink小文件处理

4.5 Kafka相关总结

4.5.1 Kafka架构

4.5.2 Kafka压测

4.5.3 Kafka的机器数量

4.5.4 Kafka的日志保存时间

4.5.5 Kafka的硬盘大小

4.5.6 Kafka监控

4.5.7 Kakfa分区数

4.5.8 副本数设定

4.5.9 多少个Topic

4.5.10 Kafka丢不丢数据

4.5.11 Kafka的ISR副本同步队列

4.5.12 Kafka分区分配策略

4.5.13 Kafka中数据量计算

4.5.14 Kafka挂掉

4.5.15 Kafka消息数据积压，Kafka消费能力不足怎么处理？

4.6.1 Hive的架构

4.6.2 Hive和数据库比较

4.6.3 内部表和外部表

4.6.4 4个By区别

4.6.5 窗口函数

4.6.6 自定义UDF、UDTF

4.6.7 Hive优化

4.7 HBase总结

4.7.1 HBase存储结构

4.7.2 rowkey设计原则

4.7.3 RowKey如何设计

4.7.4 Phoenix二级索引

4.8 Sqoop参数

4.8.1 Sqoop导入导出Null存储一致性问题

4.8.2 Sqoop数据导出一致性问题

4.8.3 Sqoop底层运行的任务是什么

4.8.4 Sqoop数据导出的时候一次执行多长时间

4.9.2 隐式转换

4.9.3 函数式编程理解

4.9.4 样例类

4.9.5 柯里化

4.9.7 Some、None、Option的正确使用

4.10.1 Spark有几种部署方式？请分别简要论述

4.10.2 Spark任务使用什么进行提交，javaEE界面还是脚本

4.10.3 Spark提交作业参数（重点）

4.10.4 简述Spark的架构与作业提交流程（画图讲解，注明各个部分的作用）（重点）

4.10.5 如何理解Spark中的血统概念（RDD）（笔试重点）

4.10.6 简述Spark的宽窄依赖，以及Spark如何划分stage，每个stage又根据什么决定task个数? （笔试重点）

4.10.7 请列举Spark的transformation算子（不少于8个），并简述功能（重点）

4.10.8 请列举Spark的action算子（不少于6个），并简述功能（重点）

4.10.9 请列举会引起Shuffle过程的Spark算子，并简述功能。

4.10.10 简述Spark的两种核心Shuffle（HashShuffle与SortShuffle）的工作流程（包括未优化的HashShuffle、优化的HashShuffle、普通的SortShuffle与bypass的SortShuffle）（重点）

4.10.11 Spark常用算子reduceByKey与groupByKey的区别，哪一种更具优势？（重点）

4.10.12 Repartition和Coalesce关系与区别

4.10.13 分别简述Spark中的缓存机制（cache和persist）与checkpoint机制，并指出两者的区别与联系

4.10.14 简述Spark中共享变量（广播变量和累加器）的基本原理与用途。（重点）

4.10.15 当Spark涉及到数据库的操作时，如何减少Spark运行中的数据库连接数？

4.10.16 简述SparkSQL中RDD、DataFrame、DataSet三者的区别与联系? （笔试重点）

4.10.17 SparkSQL中join操作与left join操作的区别？

4.10.18 SparkStreaming有哪几种方式消费Kafka中的数据，它们之间的区别是什么？

4.10.19 简述SparkStreaming窗口函数的原理（重点）

4.10.20 请手写出wordcount的Spark代码实现（Scala）（手写代码重点）

4.10.21 如何使用Spark实现topN的获取（描述思路或使用伪代码）（重点）

4.10.22 京东：调优之前与调优之后性能的详细对比（例如调整map个数，map个数之前多少、之后多少，有什么提升）

本教程由尚硅谷教育大数据研究院出品，如需转载请注明来源，欢迎大家关注尚硅谷公众号（atguigu）了解更多。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：尚硅谷大数据技术之Storm

后一篇：尚硅谷大数据技术之高频面试题

新浪BLOG意见反馈留言板　欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

Copyright © 1996 - 2022 SINA Corporation, All Rights Reserved

新浪公司版权所有