扫码阅读
手机扫码阅读

一个基于自动机器学习的企业级实战项目

97 2024-10-16

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:一个基于自动机器学习的企业级实战项目
文章来源:
数据STUDIO
扫码关注公众号

文章摘要

该篇文章是一个数据挖掘实战案例,使用自动机器学习库pycaret来评估和预测公司破产。数据集来源于台湾经济杂志,包含1999年到2009年的数据。

1. 引言

本文探讨了使用自动化机器学习方法预测公司破产的可能性,数据集基于台湾证券交易所的商业规则。使用了python的开源低代码机器学习库pycaret来自动化机器学习工作流程。

2. 理解数据

数据集包含6819条记录和96个特征,没有缺失值。数据集被读入pandas数据框,展示了使用.info()、.shape和.describe()方法来理解数据的结构和分布。

3. 数据探索与清洗

数据集没有缺失值,进行了列名的调整以适配pycaret库。统计了目标变量(即公司是否破产)的分布,发现数据集是不平衡的。通过绘图可视化了特征分布,并发现多数特征呈现偏态分布。

3.1 缺失值处理

数据集没有缺失值,因此不需要处理。

3.2 特征分布

对特征的偏态进行了检查,结果表明许多特征确实有偏态。之后用图表形式可视化了特征分布情况,并列出了具有偏态的特征。最后,为了平衡数据集,进行了下采样直至破产与非破产样本比例大致为50/50,并再次检查偏态。

3.3 下采样

为了处理数据集的不平衡问题,进行了下采样,使得破产和非破产的样本数大致相等。

4. 特征工程

去除了无关的特征"net_income_flag",并绘制了相关矩阵来分析特征间的关系。

4.1 相关矩阵

通过绘制热图,分析了特征之间的相关性。

4.1.1 与破产相关的最高特征

基于破产企业常见特征,如资产少、负债高、盈利能力低、现金流少,分析了与破产最相关的特征,并考虑了正负相关性。

想要了解更多内容?

查看原文:一个基于自动机器学习的企业级实战项目
文章来源:
数据STUDIO
扫码关注公众号