扫码阅读

手机扫码阅读

使用H统计量分析机器学习模型特征相关性

591 2024-10-16

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：使用H统计量分析机器学习模型特征相关性

文章来源：

数据STUDIO

扫码关注公众号

摘要

Friedman的h统计量（h-stat）是一种可解释性机器学习（XAI）方法，用于分析复杂机器学习模型中特征之间的交互。通过使用Python包artemis，我们可以计算成对h-stat和总体h-stat，分别量化两个特征之间以及一个特征与所有其他特征之间的交互效应。在进行分析时，可以选择使用标准化或非标准化的统计量。

H-stat简介

H-stat通过比较联合部分依赖（PD）函数和假设特征不交互的PD来量化特征间的交互。成对h-stat表示两个特征之间交互产生的效果百分比，而总体h-stat表示一个特征与所有其他特征交互产生的效果百分比。这些指标可以归一化，但有时归一化会夸大交互效应，尤其是当整体效果很小时。

使用artemis包

我们使用artemis包来分析鲍鱼数据集中的特征，该数据集包含了高度相关的特征。通过移除一些高度相关的特征，并为性别特征创建独热编码，我们能够训练一个随机森林模型来预测鲍鱼环数。然后，我们选择100个实例进行H-stat计算，以得到稳定的估计。

H-stat分析

总体H-stat表明壳重和去壳重量与其他特征的交互最为显著，分别约占35%和27%的预测效果。成对H-stat揭示了壳重和去壳重量之间约24%的变化是由两个特征之间的交互产生的。通过热图可视化，我们可以看到特征之间的相互作用以及每个特征的重要性。

非标准化H-stat

通过计算非标准化H-stat，我们发现先前可能夸大了某些交互，例如内脏重量和长度之间的交互。分析还说明了H-stat在面对高度相关特征时可能产生虚假交互的局限性。最终，通过散点图的可视化，我们确认了壳重和去壳重量之间的实际交互。

结论

尽管H-stat具有局限性，但通过将其与其他XAI方法结合使用，我们可以更全面地分析模型中的交互。在模型中包含高度相关的特征时，验证结果的重要性是显而易见的。

想要了解更多内容？

查看原文：使用H统计量分析机器学习模型特征相关性

文章来源：

数据STUDIO

扫码关注公众号

相关推荐

Jenkins集成GitLab的正确姿势，实现Git代码提交触发CI/CD

2083

jenkins gitlab 配置 GitLab

❝jenkins和gitlab是目前DevOps工具链中最常见的，抛开gitlab-ci不谈，gitlab代码

这种简易进销存可解燃眉之急

202

放心，没有今天的内容是没有代码的，只是几个很简单的公式+数据透视表而已

浅述工具产品的一些思考

192

说到AI工具产品经理，顾名思义首先是工具产品，再结合到AI领域。

如何解决代码质量低下的问题？

286

在互联网行业，编码是软件开发过程中至关重要的一环。然而，很多时候我们可能会遇到代码质量低下的问题。这不仅可能导致项目延期，还可能影响产品的质量和稳定性。那么，如何在编码环节中解决代码质量低下的问题呢？今天我们从以下几个方面进行分析。

名词解释：数据加密（Data Encryption）

233

数据加密，可以比喻为你的私人信件。当你写信给朋友时，你会用信封来保护信件的内容，确保只有收信人能看到信件内容。在数字世界中，数据加密就像是用一个特殊的“信封”来隐藏信息，确保只有预期的接收者才能解密和阅读信息。

Python可视化库Pyecharts使用介绍

538

Pyecharts是一个用于生成可视化图的Python库，它基于Echarts JavaScript库，提供

点击领取《Python学习手册》，后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享，内容以 Python 为核心语言，涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。

116 篇文章

浏览 57.8K

数据STUDIO的其他文章

这个被忽略的细节，是编写优秀 Python 代码的必经之路

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

懒人必备，五个高效Python装饰器

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

使用 TiDE 进行时间序列预测

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

快速学习一个算法--Fuzzy C Means聚类

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

Python太慢？那是你没用对方法！

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

随机阅读

案例：缺陷状态数据分析

案例：工时数据分析

使用Gompertz模型预测非典的趋势

公司级项目管理例会的汇报内容

回归方程有效性的检查

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线