Python 离群值检测算法 -- XGBOD
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
摘要
监督学习和无监督学习在异常检测领域各有优势,而表征学习能够结合两者的优点。本文介绍了XGBOD技术,这是一个利用无监督学习生成的离群值分数作为特征来提高监督学习性能的方法。
表征学习
表征学习专注于无需人工干预就能发现数据的隐含特征。它通过机器学习算法来学习数据中的正常和模糊模式,并利用这些新的特征表征原始数据。BORE方法便是利用无监督学习中的离群值作为有监督学习模型的输入特征,以此来提高预测性能。
异常值的类型
异常值在二元分类模型中通常标记为“1”,且存在不同类型。例如,医疗保险和医疗补助中的医疗欺诈行为就是异常值的实例,这些可以在数据点的二维图上标识出来。
XGBOD
XGBOD是一个监督学习方法,使用梯度提升树算法的XGBoost来处理不平衡数据。它的三个步骤包括:使用无监督学习创建新特征“变换离群点分数”(TOS)、将新特征与原始特征结合并应用皮尔逊相关系数筛选有用特征,以及使用XGBoost分类器进行训练。
建模程序
在无监督学习方法中,建模包括建立模型、确定阈值和分析正常组与异常组。XGBOD中由于目标已知,可以直接建立模型。两组之间的描述性统计有助于解释模型的合理性。
XGBOD总结
XGBOD通过应用不同的无监督离群点检测模型来创建TOS,然后将其添加到原始特征中构建模型。这种结合了表征学习和监督学习的方法可以提高预测准确性。
想要了解更多内容?
点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。