BAT机器学习面试题及解析(256-260题)

来源:互联网 发布:淘宝暴利行业排行榜 编辑:程序博客网 时间:2024/06/11 18:09

本系列作为国内首个AI题库,囊括绝大部分机器学习和深度学习的笔试面试题、知识点,可以作为机器学习自测题,也可以当做查漏补缺的资料库。前255题已发,后续请关注本公众号。

关于如何学习机器学习,最推荐机器学习集训营系列(点击文末“阅读原文”)。从Python基础、数据分析、爬虫,到数据可视化、spark大数据,最后实战机器学习、深度学习等一应俱全。

256.对于下图, 最好的主成分选择是多少 ? 


A. 7

B. 30

C. 35

D. 不确定

点击下方空白处可显示答案

答案: B

主成分选择使variance越大越好, 在这个前提下, 主成分越少越好。

257.数据科学家可能会同时使用多个算法(模型)进行预测, 并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是 :

A. 单个模型之间有高相关性

B. 单个模型之间有低相关性

C. 在集成学习中使用“平均权重”而不是“投票”会比较好

D. 单个模型都是用的一个算法

点击下方空白处可显示答案

答案: B

详细请参考下面文章:

  • Basics of Ensemble Learning Explained in Simple English(https://www.analyticsvidhya.com/blog/2015/08/introduction-ensemble-learning/)

  • Kaggle Ensemble Guide(http://mlwave.com/kaggle-ensembling-guide/)

  • 5 Easy questions on Ensemble Modeling everyone should know(https://www.analyticsvidhya.com/blog/2015/09/questions-ensemble-modeling/)

258.在有监督学习中, 我们如何使用聚类方法? 

1. 我们可以先创建聚类类别, 然后在每个类别上用监督学习分别进行学习

2. 我们可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

3. 在进行监督学习之前, 我们不能新建聚类类别

4. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

A. 2 和 4

B. 1 和 2

C. 3 和 4

D. 1 和 3

点击下方空白处可显示答案

答案: B

我们可以为每个聚类构建不同的模型, 提高预测准确率。

“类别id”作为一个特征项去训练, 可以有效地总结了数据特征。

所以B是正确的

259.以下说法正确的是 :

1. 一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的

2. 如果增加模型复杂度, 那么模型的测试错误率总是会降低

3. 如果增加模型复杂度, 那么模型的训练错误率总是会降低

4. 我们不可以使用聚类“类别id”作为一个新的特征项, 然后再用监督学习分别进行学习

A. 1

B. 2

C. 3

D. 1 and 3

点击下方空白处可显示答案

答案: C

考的是过拟合和欠拟合的问题。

 260.对应GradientBoosting tree算法, 以下说法正确的是 :

1. 当增加最小样本分裂个数,我们可以抵制过拟合

2. 当增加最小样本分裂个数,会导致过拟合

3. 当我们减少训练单个学习器的样本个数,我们可以降低variance

4. 当我们减少训练单个学习器的样本个数,我们可以降低bias

A. 2 和 4

B. 2 和 3

C. 1 和 3

D. 1 和 4

点击下方空白处可显示答案

答案: C

最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”,这个参数应该用交叉验证来调节。

第二点是靠bias和variance概念的。

往期题目:

BAT机器学习面试1000题系列(第1~60题)

BAT机器学习面试1000题系列(第61~100题)

BAT机器学习面试1000题系列(第101~200题)

BAT机器学习面试1000题系列(第201~250题)

BAT机器学习面试1000题系列(第251~255题)




点击下方“阅读全文”,预约机器学习集训营

原创粉丝点击