扫码阅读

手机扫码阅读

k-近邻算法介绍及实例

333 2024-10-28

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：k-近邻算法介绍及实例

文章来源：

Python学习杂记

扫码关注公众号

K-近邻算法（KNN）原理与实现

K-近邻算法（KNN）原理

K-近邻算法（KNN）基于一个简单的原则：如果一个样本在特征空间中的k个最相似（即最邻近）的样本中的大多数属于某一个类别，则该样本也划分为这个类别。样本之间的相似度通常通过欧式距离来计算，但由于各变量可能有不同的数量级和离散程度，因此在计算之前需要进行标准化处理。

实验数据与库导入

本文通过使用常见的鸢尾花（Iris）数据集来展示KNN算法的实现过程。首先导入必要的库：


from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import preprocessing
import matplotlib.pyplot as plt
import pandas as pd

数据处理

接着，文中提供了数据的导入及其标准化处理的代码。数据被读取并分为特征X和标签y，之后使用MinMaxScaler进行标准化。


df = pd.read_csv('iris.csv', encoding = "gbk")
X = df.drop(columns='种类')
y = df['种类']
minmax = preprocessing.MinMaxScaler()
Xn = minmax.fit_transform(X)

K值选择与模型训练

文章接下来介绍了如何通过设置不同的K值来训练KNN模型，并使用交叉验证来评估其准确性。通过循环尝试不同的K值（从1到19），并记录每个K值下模型的平均准确率。


X_train, X_test, y_train, y_test = train_test_split(Xn, y, test_size=0.2, random_state=3)
dd = []
for k in range(1, 20):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    scores = cross_val_score(knn, X_train, y_train, cv=3, scoring='accuracy')
    mm = round(scores.mean(), 3)
    dd.append(scores.mean())

通过分析这些准确率的图表，文中得出结论，在本例中k取12是最优的选择。

完整代码与模型训练

最后，提供了完整的代码，包括数据准备、模型训练和评估过程，以及使用图表来确定最佳的K值。通过最终的评估，模型在测试数据上的准确率被计算并四舍五入到三位小数。


# 完整代码示例
knnbest = KNeighborsClassifier(n_neighbors=12)
knnbest.fit(train_X, train_y)
round(knnbest.score(test_X, test_y), 3)

文章强调了KNN模型的简单性和易理解性，并鼓励读者自行操作尝试。

想要了解更多内容？

查看原文：k-近邻算法介绍及实例

文章来源：

Python学习杂记

扫码关注公众号

相关推荐

规模化软件开发中如何治愈自动化测试不稳定的顽疾？（下）

自动化测试不稳定的顽疾如何治愈？

useUnicode=true&characterEncoding=UTF-8&charset=utf8——字符编码与字符集

378

字符编码字符集 Unicode

问题背景在做一个学生信息管理系统时，需要用到数据库连接相关的东西

揭秘自学java的钥匙——鸡娃神器java版

317

最佳实践，你也可以！

cmd常用命令介绍

373

cmd简介cmd是Windows操作系统中的命令行解释器，它允许用户通过输入命令来执行各种操作。

什么是插入意向锁？

257

异步 Servlet 都不懂，谈何 WebFlux？

262

。

Python学习杂记

探索运筹优化、机器学习、AI 和数据可视化的奥秘及其落地应用

256 篇文章

浏览 99.4K

Python学习杂记的其他文章

动态规划原理及案例介绍

动态规划是一种常用的优化技术，本文介绍动态规划基本原理及常见案例。

选址问题（一）-精确重心法和遗传算法

选址问题是运筹学中经典的问题之一。选址问题在生产生活、物流、甚至军事中都有着非常广泛的应用。

使用Python生成你的LaTeX公式

本文介绍python中latexify模块基础使用，使用python生成LaTex公式。

Gurobi安装和使用

Gurobi 是由美国Gurobi公司开发的新一代大规模数学规划优化器。

Tkinter的基础使用介绍

简介Tkinter是Python的标准GUI库之一，它提供了创建GUI应用程序所需的各种组件和工具。

随机阅读

3分钟弄懂CMMI2.0基准评估的抽样规则

COSMIC规模度量案例集二：业务应用软件案例——银行卡签约/解约

10-01

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

k-近邻算法介绍及实例

K-近邻算法（KNN）原理

实验数据与库导入

数据处理

K值选择与模型训练

完整代码与模型训练

联系我们

融实践库

微信公众号

微信视频号

社区微信群

k-近邻算法介绍及实例

K-近邻算法（KNN）原理

实验数据与库导入

数据处理

K值选择与模型训练

完整代码与模型训练

自动化会提高测试覆盖率，那测试覆盖率是什么？

联系我们

融实践库

微信公众号

微信视频号

社区微信群