2021年1月28日晚9时,山东大学土建与水利学院“科研我当先”实践团队线上进行第三次内容分享。会议由龚陈博同学主持,全体成员参加。
本次交流由龚陈博同学主讲,他关于机器学习中的KNN算法进行了深入浅出的分享。
K近邻法(k-nearest neighbor,KNN)是一种基本的机器学习方法,在我们平常的生活中也会不自主的应用,就是“物以类聚,人以群分”。比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就是运用了KNN的思想。KNN方法既可以做分类,也可以做回归,这和决策树算法相同。
KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同。KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别。而KNN做回归时,一般是选择平均法,即最近的K个样本的样本输出的平均值作为回归预测值。
此外龚陈博同学说明了KNN算法的三个要素:
1. K值的选取
2. 距离的度量
3. 分类决策规则
并且用C++提供了一个样例的相关代码进行测试:
最后,龚陈博同学讲了KNN算法的一些缺陷:
1、效率低,因为每一次分类或者回归,都要把训练数据和测试数据都算一遍,如果数据量很大的话,需要的算力会很惊人,但是在机器学习中,大数据处理又是很常见的一件事。
2、对训练数据依赖度特别大,虽然所有机器学习的算法对数据的依赖度很高,但是KNN尤其严重,因为如果训练数据集中,有一两个数据是错误的,刚刚好又在需要分类的数值的旁边,这样就会直接导致预测的数据的不准确,对训练数据的容错性太差
3、维数灾难,KNN对于多维度的数据处理也不是很好。
通过此次龚陈博同学的分享,团队成员了解了机器学习中KNN算法的相关知识,拓展了知识。本次会议分享持续了三十分种,对于非本专业的学生是一次很好的学习机会。
http://www.dxsbao.com/shijian/337541.html 点此复制本页地址