加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

面试指导|数据科学岗位面试题(108道)

(2017-03-21 15:53:01)

小编昨天看到这套面试题,立马自己先做了下,发现很多题目在我们的《R语言数据分析和数据挖掘实战课程》中都有学到哦! 感觉学习后最大收益就是,面试IBM中问题不大,哈哈!

      我把已经学到的知识进行了标红,大家也能来尝试下,应聘者分享的 Facebook、谷歌、微软等大公司数据科学岗位的面试题,共108道,看看自己能有多少题回答自如!

     

 

General Questions 

Apple

  1. Suppose you’re given millions of users that each have hundreds of transactions and these millions of transactions are for tens of thousands of products. How would you group the users together in meaningful segments?

    如果你有几百万用户,每个用户都会发生数百笔交易,这些交易存在于数十种产品中。你该如何把这些用户细分成有意义的几类?(R语言有专门的顾客细分的学习)

Microsoft

  1. Describe a project you’ve worked on and how it made a difference.

    描述一个你曾经参与的项目,以及它的优点。

  2. How would you approach a categorical feature with high-cardinality?

    如何处理具有高基数(high-cardinality)的类属特征?

  3. What would you do to summarize a Twitter feed?

    如果想要给 Twitter feed 写 summarize,你要怎么办?(R语言中的文本挖掘)

  4. What are the steps for wrangling and cleaning data before applying machine learning algorithms?

    在应用机器学习算法之前纠正和清理数据的步骤是什么?(R语言中的数据清洗)

  5. How do you measure distance between data points?

    如何测量数据点之间的距离?(欧式距离等)

  6. Define variance.

    请定义一下方差。(统计学基础)

  7. Describe the differences between and use cases for box plots and histograms.

    请描述箱形图(box plot)和直方图(histogram)之间的差异,以及它们的用例。(R语言作图)

Twitter

  1. What features would you use to build a recommendation algorithm for users?

    你会使用什么功能来为用户构建推荐算法?(R语言课程中的推荐系统

Uber

  1. Pick any product or app that you really like and describe how you would improve it.

    选择任何一个你真正喜欢的产品或应用程序,并描述如何改善它。

  2. How would you find an anomaly in a distribution ?

    如何在分布中发现异常?数据中的异常值,数据清洗)

  3. How would you go about investigating if a certain trend in a distribution is due to an anomaly?

    如何检查分布中的某个趋势是否是由于异常产生的?

  4. How would you estimate the impact Uber has on traffic and driving conditions?

    如何估算 Uber 对交通和驾驶环境造成的影响?

  5. What metrics would you consider using to track if Uber’s paid advertising strategy to acquire new customers actually works? How would you then approach figuring out an ideal customer acquisition cost?

    你会考虑用什么指标来跟踪 Uber 付费广告策略在吸引新用户上是否有效?然后,你想用什么办法估算出理想的客户购置成本?

LinkedIn

  1. Big Data Engineer Can you explain what REST is?

    (大数据工程师)请解释 REST 是什么。



Machine Learning Questions 


Google

  1. Why do you use feature selection?

    为什么要使用特征选择(feature selection)?(模型中的变量选择)

  2. What is the effect on the coefficients of logistic regression if two predictors are highly correlated? What are the confidence intervals of the coefficients?

    如果两个预测变量高度相关,它们对逻辑回归系数的影响是什么?系数的置信区间是什么?

  3. What’s the difference between Gaussian Mixture Model and K-Means?

    高斯混合模型(Gaussian Mixture Model)和 K-Means 之间有什么区别?

  4. How do you pick k for K-Means?

    在 K-Means 中如何拾取 k?(顾客细分的理论基础)

  5. How do you know when Gaussian Mixture Model is applicable?

    你如何知道高斯混合模型是不是适用的?

  6. Assuming a clustering model’s labels are known, how do you evaluate the performance of the model?

    假设聚类模型的标签是已知的,你如何评估模型的性能?(顾客细分如何评估模型结果)

Microsoft

  1. What’s an example of a machine learning project you’re proud of?

    你有哪些引以为豪的机器学习项目?

  2. Choose any machine learning algorithm and describe it.

    随意选择一个机器学习算法,并描述它。(R语言课程中会涉及多种算法)

  3. Describe how Gradient Boosting works.

    请解释 Gradient Boosting 是如何工作的。

  4. Data Mining Describe the decision tree model.

    (数据挖掘工程师)请解释决策树模型。

  5. Data Mining What is a neural network?

    (数据挖掘工程师)什么是神经网络?

  6. Explain the Bias-Variance Tradeoff

    请解释偏差方差权衡(Bias-Variance Tradeoff)。

  7. How do you deal with unbalanced binary classification?

    如何处理不平衡二进制分类?(R语言信用评级案例)

  8. What’s the difference between L1 and L2 regularization?

    L1 和 L2 正则化之间有什么区别?

Uber

  1. What sort features could you give an Uber driver to predict if they will accept a ride request or not? What supervised learning algorithm would you use to solve the problem and how would compare the results of the algorithm?

    你会通过哪种特征来预测 Uber 司机是否会接受订单请求?你会使用哪种监督学习算法来解决这个问题,如何比较算法的结果?

LinkedIn

  1. Name and describe three different kernel functions and in what situation you would use each.

    点出及描述三种不同的内核函数,在哪些情况下使用哪种?(R语言逻辑回归的场景)

  2. Describe a method used in machine learning.

    随意解释机器学习里的一种方法。

  3. How do you deal with sparse data?

    如何应付稀疏数据?(R语言推荐系统的案例)

IBM

  1. How do you prevent overfitting?

    如何防止过拟合(overfitting)?(训练集和测试集防止过拟合)

  2. How do you deal with outliers in your data?

    如何处理数据中的离群值?

  3. How do you analyze the performance of the predictions generated by regression models versus classification models?

    如何评估逻辑回归与简单线性回归模型预测的性能?

  4. How do you assess logistic regression versus simple linear regression models?

    如何确定逻辑回归与简单线性回归模型?

  5. What’s the difference between supervised learning and unsupervised learning?

    监督学习和无监督学习有什么区别?

  6. What is cross-validation and why would you use it?

    什么是交叉验证(cross-validation),为什么要使用它?

  7. What’s the name of the matrix used to evaluate predictive models?

    用于评估预测模型的矩阵的称为什么?

  8. What relationships exist between a logistic regression’s coefficient and the Odds Ratio?

    逻辑回归系数和胜算比(Odds Ratio)之间存在怎样的关联?

  9. What’s the relationship between Principal Component Analysis (PCA) and Linear & Quadratic Discriminant Analysis (LDA & QDA)

    主成分分析(PCA)与线性判别分析(LDA)、二次判别分析(QDA)之间存在怎样的关联?

  10. If you had a categorical dependent variable and a mixture of categorical and continuous independent variables, what algorithms, methods, or tools would you use for analysis?

    如果你有一个因变量分类,又有一个连续自变量的混合分类,你将使用什么算法,方法或工具进行分析?

  11. Business Analytics What’s the difference between logistic and linear regression? How do you avoid local minima?

    (行业分析师)逻辑与线性回归有什么区别?如何避免局部极小值?

    认真学了我们的《R语言数据分析与数据挖掘》的最大收益就是,面试IBM中问题不大,哈哈!

Salesforce

  1. What data and models would would you use to measure attrition/churn? How would you measure the performance of your models?

    你会使用哪些数据和模型来测量损耗/流失?如何测试模型性能?

  2. Explain a machine learning algorithm as if you’re talking to a non-technical person.

    请尝试向非技术人员解释一种机器学习算法。

Capital One

  1. 如何构建一个模型来预测信用卡诈骗?

  2. 如何处理丢失或不良数据?

  3. 如何从已存在的特征中导出新的特征?

  4. 如果你试图预测客户的性别,但只有 100 个数据点,可能会出现什么问题?

  5. 在拥有两年交易历史的情况下,哪些特征可以用来预测信用风险?(R语言中信用评级案例)

  6. Design an AI program for Tic-tac-toe

    设计一个用来下井字棋的人工智能程序。

Zillow

  1. 请解释过度拟合,以及如何防止过度拟合。

  2. 为什么 SVM 需要在支持向量之间最大化边缘?


Hadoop


Twitter

  1. 如何使用 Map/Reduce 将非常大的图形分割成更小的块,并根据数据的快速/动态变化并行计算它们的边缘?

  2. (数据工程师)给定一个列表:123, 345234, 678345, 123…其中第一列是粉丝的 ID,第二列是被粉者的 ID。查找所有相互后续对(上面的示例中的对是 123,345)。当列表超出内存时,如何使用 Map / Reduce 来解决问题?

Capital One

  1. (对数据工程师)什么是 Hadoop 序列化(serialization)?

  2. 阐述一个简单的 Map / Reduce 问题。

Hive


LinkedIn

  1. (数据工程师)请编写返回情感分数的 Hive UDF。例如,假如好=1,坏=-1,平均数=0,那么对餐厅做评价时因为「食物好,服务差」,你的分数可能为 1 - 1 = 0



Spark


Capital One

  1. Data Engineer Explain how RDDs work with Scala in Spark

    (数据工程师)阐释使用 Scala 语言时RDD 在 Spark 中是如何工作的?



Statistics & Probability Questions


Google

  1. 请尝试向非技术人员阐释交叉验证(Cross-validation)。Cross-validation

  2. 请描述一下非正态概率分布以及该如何应用?

Microsoft

  1. (数据挖掘)请解释异方差(heteroskedasticity)是什么,以及如何解决它。

Twitter

  1. 在给定 Twitter 用户数据的情况下,你该如何衡量参与度?

Uber

  1. 时间序列预测技术有什么不同?

  2. 解释原理组件分析(PCA)及其 使用的方程。

  3. 如何解决多重共线性(Multicollinearity)?

  4. (分析师)请尝试列出优化我们在 推特和脸书上的广告费用支出的方程。

Facebook

  1. 在一副牌中抽取两张,出现同一花色的概率是多少?

IBM

  1. What are p-values and confidence intervals?

    什么是 p-value 和置信区间?

Capital One

  1. (数据分析师)如果你有 70 个红色弹珠,绿色和红色弹珠的比例是 2 :7,有多少绿色弹珠?

  2. 纽约市的通勤数据看起来应该遵从什么分布?

  3. 一个骰子,在扔 6 次的情况下出现 1 个 6 的几率,与扔 12 次的情况下出现至少两个 6 的几率,和扔 600 次出现至少 100 次 6 的几率相比哪个大?PayPal

  1. 什么是中心极限定理(Central Limit Theorem),如何证明它?它的应用方向是什么?



Programming & Algorithms 编程和算法


Google

  1. (数据分析师)请写一个程序可以判定二叉树的高度。

Microsoft

  1. 请创建一个函数检查一个词是否具有回文结构。

Twitter

  1. 请构建一个幂集(power set)。

  2. 请问如何在一个巨大的数据集中找到中值?

Uber

  1. (数据工程师)编写一个函数用来计算给定数字的平方根(精确到百分位)。随后:避免冗余计算,现在使用缓存机制优化你的功能。

Facebook

  1. 假设给定两个二进制字符串,写一个函数将它们添加在一起,而不使用任何内置的字符串到 int 转换或解析工具。例如:如果给函数二进制字符串 100 和 111,它应该返回 1011。你的解决方案的空间和时间复杂性如何?

  2. 编写一个函数,它接受两个已排序的列表,并在排序列表中返回它们的并集。

LinkedIn

  1. (数据工程师)请编写一些代码来确定字符串中的左右括号是否是平衡的?

  2. 如何找到二叉搜索树中第二大的元素?

  3. 请编写一个函数,它接受两个排序的向量,并返回一个排序的向量。

  4.  如果你有一个输入的数字流,如何在运行过程中找到最频繁出现的数字?

  5. 编写一个函数,将一个数字增加到另一个数字,就像 pow()函数一样。

  6. 将大字符串拆分成有效字段并将它们存储在 dictionary 中。如果字符串不能拆分,返回 false。你的解决方案的复杂性如何?

Salesforce

  1. 查找文档最常用的词的计算复杂性是什么?

  2. 如果给你10 TBs的非结构化客户数据,你会如何发现提取有价值的信息呢?

Capital One

  1. (对数据工程师)如何「拆散」两个数列(就像 SQL 中的 JOIN 反过来)?

  2. 请创建一个用于添加的函数,数字表示为两个链表。

  3. 请创建一个计算矩阵的函数。

  4. 如何使用 Python 读取一个非常大的制表符分隔的数字文件,来计算每个数字出现的频率?

ayPal

  1. 请编写一个函数,让它能在 O(n)的时间内取一个句子并逆向打印出来。

  2.  请编写一个函数,从一个数组中拾取,将它们分成两个可能的数组,然后打印两个数组之间的最大差值(在 O(n) 时间内)。

  3. 请编写一个执行合并排序的程序。


SQL Questions


Microsoft

  1. Data Analyst Define and explain the differences between clustered and non-clustered indexes.

    (数据分析师)定义和解释聚簇索引和非聚簇索引之间的差异。

  2. Data Analyst What are the different ways to return the rowcount of a table?

    (数据分析师)返回表的行计数有哪些不同的方法?

Facebook

  1. (数据工程师)如果给定一个原始数据表,如何使用 SQL 执行 ETL(提取,转换,加载)以获取所需格式的数据?

  2. 如何编写 SQL 查询来计算涉及两个连接的某个属性的频率表?如果你想要 ORDER BY 或 GROUP BY 一些属性,你需要做什么变化?你该怎么解释 NULL?

LinkedIn

  1. (数据工程师)如何改进 ETL(提取,转换,加载)的吞吐量?



Brain Teasers & Word Problems


Google

  1. 假设你有 10 包弹球,每包里面都是 10 个弹球。如果其中一包的重量和其他的不同,但你只能进行一次称重,你该用什么办法?

Facebook

  1. 你打算坐飞机去西雅图,想知道是不是需要带伞,于是你分别打电话给三位在西雅图的朋友。每个朋友都有 2/3 的几率说真话,1/3 的几率在骗你。如果他们都说「会下雨」,西雅图下雨的概率是多少?

Uber

  1. 想象一下你在一家医院工作。患者来就诊的频率符合泊松分布,而医生照顾患者的频率符合均匀分布。请写一个函数或一段代码来输出患者的平均等待时间和医生在某日的参与度。

Facebook

  1. 假如在一个等边三角形的三个角上都有一只蚂蚁,每只随机选择方向然后直走一直到另一个边缘,三只蚂蚁互相不交汇的几率是多少?如果有 n 只蚂蚁在 n 角形中,概率又是多少?

  2. 在 100! 的结果里有多少个零?

LinkedIn

  1. 你正在攀爬一个 n 阶的楼梯,你可以采取任何数量的 k 个步骤。你到达楼梯顶部有多少不同的方式?(这是楼梯问题的修改版)

     

       2017年4月15日上海数据分析网第5期R语言数据分析与数据挖掘实战课程》将采用面授+直播的形式,不在上海的您也能同步学习!
  2. http://s3/mw690/004lBqw5zy79G3S2POae2&690

    http://s15/mw690/004lBqw5zy79G3RWGtMfe&690
  3. http://s7/mw690/004lBqw5zy79G3RTJbga6&690

     如果你不想错过第5期R课程的精彩,一定要加咨询老师的微信哦!

http://s1/mw690/004lBqw5zy79G4dnsCQ70&690

0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有