搜索
您的当前位置:首页正文

scikit-learn机器学习——第四章 复习题

来源:吉趣旅游网

1.请用一句话描述k-近邻算法的原理?

未标记样本的类别,由距离其最近的k个邻居投票来决定。

2.k-近邻算法有哪些变种?

增加邻居的权重

使用一定半径内的点代替距离最近的k个点

3.参考ch04.01.ipynb,使用RadiusNeighborsClassifier类来处理分类问题

原来的5个点

半径为1

4.参考ch04.02.ipynb,使用不同的算法参数k,观察针对同一个数据集,拟合曲线有什么变化。

k=10

k=5

k越小对原来数据点拟合的越好,k越大对原来数据点拟合的越差。k=5-10左右拟合的较好。

5.针对ch04.02.ipynb中的回归问题,试着画出算法的学习曲线。提示:关于学习曲线可参考第3章中的ch03.02.ipynb例子,重点是复用plot_learning_curve()函数。

遇到问题:Expected n_neighbors <= n_samples, but n_samples = 3, n_neighbors = 5。

样本数太少,比要求的k还少。方法1:减小_neighbors。方法2:增多样本

6.运行ch04.03.ipynb的代码,验证看看,如果我们使用SelectKBest选择出4个相关性最高的特征,并把这4个特征作为输入来训练模型,模型的准确性是否有提高?为什么?

变低了。数据在其他维度也不能很好的分离。

7.运行ch04.03.ipynb的代码,使用SelectKBest选择特征时,把默认的F值换成卡方值,结果有什么不同?

相关性最大的两个特征变了。变成了血浆葡萄糖浓度和两个小时血清胰岛素。

 

 

 

 

 

 

 

因篇幅问题不能全部显示,请点此查看更多更全内容

Top