扫码阅读
手机扫码阅读

​Python 离群点检测算法 -- GMM

183 2024-10-16

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:​Python 离群点检测算法 -- GMM
文章来源:
数据STUDIO
扫码关注公众号

摘要

高斯混合模型(GMM)是一种假设数据遵循多个高斯分布的无监督学习算法,它在1973年由杜达和哈特提出,并广泛应用于异常检测、信号处理等领域。GMM比K-均值聚类方法更灵活,因为它能够表达数据点属于不同聚类的概率。

什么是高斯混合模型(GMM)?

GMM是一种聚类技术,它假设数据点来自固定数量的不同高斯分布。与K-means方法相比,GMM进行软分类,计算数据点属于每个聚类的概率,而K-means则是硬分类,直接分配到一个聚类中。

GMM的优势

GMM能够更直观地描述潜在数据模式,它假设数据呈现多模态分布,即存在多个峰值,使其能够捕捉到更复杂的数据模式。

从高斯到GMM

在GMM中,我们使用期望最大化算法(EM算法)来估计未知的高斯分布参数,比如均值和方差。EM算法包括两个步骤:E步和M步,通过迭代直到收敛。

GMM如何定义离群点得分?

GMM通过输出数据点的概率分布,定义离群值。当数据点的拟合值很低时,它被视为离群值,通常通过设置一个阈值来区分正常值和离群值。

建模流程

建模过程包括使用PyOD库生成数据、拟合GMM模型、确定离群值得分和阈值,以及显示正常组和异常组的汇总统计数据。通过这种方式,可以将异常观测值与正常观测值区分开。

想要了解更多内容?

查看原文:​Python 离群点检测算法 -- GMM
文章来源:
数据STUDIO
扫码关注公众号