BAT机器学习面试题及解析（256-260题）

来源：互联网发布：淘宝暴利行业排行榜编辑：程序博客网时间：2024/06/11 18:09

本系列作为国内首个AI题库，囊括绝大部分机器学习和深度学习的笔试面试题、知识点，可以作为机器学习自测题，也可以当做查漏补缺的资料库。前255题已发，后续请关注本公众号。

关于如何学习机器学习，最推荐机器学习集训营系列（点击文末“阅读原文”）。从Python基础、数据分析、爬虫，到数据可视化、spark大数据，最后实战机器学习、深度学习等一应俱全。

256.对于下图, 最好的主成分选择是多少 ?

A. 7

B. 30

C. 35

D. 不确定

点击下方空白处可显示答案

答案: B

主成分选择使variance越大越好，在这个前提下，主成分越少越好。

257.数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是 :

A. 单个模型之间有高相关性

B. 单个模型之间有低相关性

C. 在集成学习中使用“平均权重”而不是“投票”会比较好

D. 单个模型都是用的一个算法

点击下方空白处可显示答案

答案: B

详细请参考下面文章:

Basics of Ensemble Learning Explained in Simple English（https://www.analyticsvidhya.com/blog/2015/08/introduction-ensemble-learning/）
Kaggle Ensemble Guide（http://mlwave.com/kaggle-ensembling-guide/）
5 Easy questions on Ensemble Modeling everyone should know（https://www.analyticsvidhya.com/blog/2015/09/questions-ensemble-modeling/）

258.在有监督学习中，我们如何使用聚类方法？

1. 我们可以先创建聚类类别，然后在每个类别上用监督学习分别进行学习

2. 我们可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

3. 在进行监督学习之前，我们不能新建聚类类别

4. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

A. 2 和 4

B. 1 和 2

C. 3 和 4

D. 1 和 3

点击下方空白处可显示答案

答案: B

我们可以为每个聚类构建不同的模型，提高预测准确率。

“类别id”作为一个特征项去训练，可以有效地总结了数据特征。

所以B是正确的

259.以下说法正确的是 :

1. 一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的

2. 如果增加模型复杂度，那么模型的测试错误率总是会降低

3. 如果增加模型复杂度，那么模型的训练错误率总是会降低

4. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

A. 1

B. 2

C. 3

D. 1 and 3

点击下方空白处可显示答案

答案: C

考的是过拟合和欠拟合的问题。

260.对应GradientBoosting tree算法，以下说法正确的是 :

1. 当增加最小样本分裂个数，我们可以抵制过拟合

2. 当增加最小样本分裂个数，会导致过拟合

3. 当我们减少训练单个学习器的样本个数，我们可以降低variance

4. 当我们减少训练单个学习器的样本个数，我们可以降低bias

A. 2 和 4

B. 2 和 3

C. 1 和 3

D. 1 和 4

点击下方空白处可显示答案

答案: C

最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”，这个参数应该用交叉验证来调节。

第二点是靠bias和variance概念的。

往期题目：

BAT机器学习面试1000题系列（第1~60题）

BAT机器学习面试1000题系列（第61~100题）

BAT机器学习面试1000题系列（第101~200题）

BAT机器学习面试1000题系列（第201~250题）

BAT机器学习面试1000题系列（第251~255题）

点击下方“阅读全文”，预约机器学习集训营

阅读全文

0 0