一个基于自动机器学习的企业级实战项目
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章摘要
该篇文章是一个数据挖掘实战案例,使用自动机器学习库pycaret来评估和预测公司破产。数据集来源于台湾经济杂志,包含1999年到2009年的数据。
1. 引言
本文探讨了使用自动化机器学习方法预测公司破产的可能性,数据集基于台湾证券交易所的商业规则。使用了python的开源低代码机器学习库pycaret来自动化机器学习工作流程。
2. 理解数据
数据集包含6819条记录和96个特征,没有缺失值。数据集被读入pandas数据框,展示了使用.info()、.shape和.describe()方法来理解数据的结构和分布。
3. 数据探索与清洗
数据集没有缺失值,进行了列名的调整以适配pycaret库。统计了目标变量(即公司是否破产)的分布,发现数据集是不平衡的。通过绘图可视化了特征分布,并发现多数特征呈现偏态分布。
3.1 缺失值处理
数据集没有缺失值,因此不需要处理。
3.2 特征分布
对特征的偏态进行了检查,结果表明许多特征确实有偏态。之后用图表形式可视化了特征分布情况,并列出了具有偏态的特征。最后,为了平衡数据集,进行了下采样直至破产与非破产样本比例大致为50/50,并再次检查偏态。
3.3 下采样
为了处理数据集的不平衡问题,进行了下采样,使得破产和非破产的样本数大致相等。
4. 特征工程
去除了无关的特征"net_income_flag",并绘制了相关矩阵来分析特征间的关系。
4.1 相关矩阵
通过绘制热图,分析了特征之间的相关性。
4.1.1 与破产相关的最高特征
基于破产企业常见特征,如资产少、负债高、盈利能力低、现金流少,分析了与破产最相关的特征,并考虑了正负相关性。
想要了解更多内容?
点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。