Python 离群点检测算法 -- PCA
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
主成分分析(PCA)是一种减少高维数据集维数的技术,可以通过线性变换将相关变量转换为线性不相关的主成分。PCA通过旋转轴以最大化数据的方差来工作,每个主成分捕获了数据集中的方差。特征向量和特征值在这个过程中起到了关键作用,特征值高的特征向量能捕获更多的方差。
降维过程可以揭示出异常值,因为当数据投影到主成分上时,异常值通常不会落在前几个主成分上。PCA模型中,数据点的离群值分数是通过计算观测点到由所选特征向量构建的超平面之间的加权欧氏距离和来表示的。在进行PCA之前,必须对数据进行标准化处理,以确保在计算过程中各变量权重一致。
建模流程包括建立基于模拟数据集的PCA模型、评分训练和测试数据。PCA模型参数需设置,如污染率和是否标准化。还需要确定合理的阈值来识别异常值,这通常基于数据的离群值得分分布。最后,对正常和异常组进行描述性统计分析,确保模型结果与先验知识相符。
在PyOD中,使用PCA进行异常值检测的过程包括生成数据、建立PCA模型、计算离群值得分、确定阈值,并通过直方图和描述性统计来分析和验证模型的有效性。
想要了解更多内容?
点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。