扫码阅读
手机扫码阅读
Python 离群点检测算法 -- OCSVM
97 2024-10-16
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章来源:
数据STUDIO
扫码关注公众号
摘要
监督学习算法通常用于解决分类问题,但当只能观察到正常数据时,单类支持向量机(OCSVM)适用于建模并识别异常数据。OCSVM通过对正常类的属性建模,来检测异常数据。
支持向量机(SVM)
SVM是一种监督学习算法,由Vladimir Vapnik在AT&T贝尔实验室开发,适用于分类和回归问题。SVM通过在高维空间创建非线性决策边界来分离两个类别,使得原本无法线性分离的数据能够被有效分类。
从SVM到单类SVM
单类SVM是针对一类数据的变种,它通过最大化超平面到原点的距离来区分正常类与目标类。OCSVM的离群点得分基于数据点到超平面的距离,该得分的敏感性依赖于内核选择和超参数设置,特别是名为nu的超参数。
建模流程
- 步骤 1 - 建立模型: 使用数据生成过程(DGP)模拟数据,建立OCSVM模型,并利用PyOD库进行模型训练和离群值预测。
- 步骤 2 - 确定合理的阈值: 通过离群值得分的直方图确定异常组的阈值。
- 步骤 3 - 显示正常组和异常组的描述性统计结果: 通过设置阈值并分析离群值得分,区分正常组与异常组,并进行描述性统计分析。
想要了解更多内容?
文章来源:
数据STUDIO
扫码关注公众号
点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。
116 篇文章
浏览 21.1K
数据STUDIO的其他文章
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设
白皮书上线