扫码阅读

手机扫码阅读

一个基于自动机器学习的企业级实战项目

428 2024-10-16

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：一个基于自动机器学习的企业级实战项目

文章来源：

数据STUDIO

扫码关注公众号

文章摘要

该篇文章是一个数据挖掘实战案例，使用自动机器学习库pycaret来评估和预测公司破产。数据集来源于台湾经济杂志，包含1999年到2009年的数据。

1. 引言

本文探讨了使用自动化机器学习方法预测公司破产的可能性，数据集基于台湾证券交易所的商业规则。使用了python的开源低代码机器学习库pycaret来自动化机器学习工作流程。

2. 理解数据

数据集包含6819条记录和96个特征，没有缺失值。数据集被读入pandas数据框，展示了使用.info()、.shape和.describe()方法来理解数据的结构和分布。

3. 数据探索与清洗

数据集没有缺失值，进行了列名的调整以适配pycaret库。统计了目标变量（即公司是否破产）的分布，发现数据集是不平衡的。通过绘图可视化了特征分布，并发现多数特征呈现偏态分布。

3.1 缺失值处理

数据集没有缺失值，因此不需要处理。

3.2 特征分布

对特征的偏态进行了检查，结果表明许多特征确实有偏态。之后用图表形式可视化了特征分布情况，并列出了具有偏态的特征。最后，为了平衡数据集，进行了下采样直至破产与非破产样本比例大致为50/50，并再次检查偏态。

3.3 下采样

为了处理数据集的不平衡问题，进行了下采样，使得破产和非破产的样本数大致相等。

4. 特征工程

去除了无关的特征"net_income_flag"，并绘制了相关矩阵来分析特征间的关系。

4.1 相关矩阵

通过绘制热图，分析了特征之间的相关性。

4.1.1 与破产相关的最高特征

基于破产企业常见特征，如资产少、负债高、盈利能力低、现金流少，分析了与破产最相关的特征，并考虑了正负相关性。

想要了解更多内容？

查看原文：一个基于自动机器学习的企业级实战项目

文章来源：

数据STUDIO

扫码关注公众号

相关推荐

SpringSecurity自定义Security授权过滤

339

SpringSecurity自定义Security授权过滤

Redis6入门到实战------ 四、Redis配置文件介绍

256

设置 redis key 日志

文章底部有个人公众号：热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何

【实战篇】数据驱动业务增长：如何做转化意愿预测？

273

“数据驱动业务增长”是以业务线全链路海量数据的收集、存储、可视化、分析、挖掘作为核心支撑的，需要协同上下游参与且目标一致，最终将数据精准化、精细化为实现商业目的。

自动化测试混合驱动样例详解（1）

267

不要等没有offer的时候再来学习

谷歌公司曾经面试的算法题：合并两个排好序的数组

309

谷歌公司面试题：合并两个排好序的数组，合并为一个排好序的数组，请问你可以用几种方法，哪种方法好，并且为什么？

【SpringSecurity系列（十八）】SpringBoot 如何防御 CSRF 攻击？

242

。

数据STUDIO

点击领取《Python学习手册》，后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享，内容以 Python 为核心语言，涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。

116 篇文章

浏览 50.6K

数据STUDIO的其他文章

MCMC确定机器学习集成模型最佳权重

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

数据科学大作业：爬取租房数据并可视化分析

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

Pandas图鉴(三)：DataFrames

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

新手入门 MySQL 数据库保姆级图解教程

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

时间序列数据处理，不再使用pandas

关注和星标『数据STUDIO』，和云朵君一起学习数据分析与挖掘！

随机阅读

采用Minitab进行logistic回归分析

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

一个基于自动机器学习的企业级实战项目

文章摘要

1. 引言

2. 理解数据

3. 数据探索与清洗

3.1 缺失值处理

3.2 特征分布

3.3 下采样

4. 特征工程

4.1 相关矩阵

4.1.1 与破产相关的最高特征

联系我们

融实践库

微信公众号

微信视频号

社区微信群

一个基于自动机器学习的企业级实战项目

文章摘要

1. 引言

2. 理解数据

3. 数据探索与清洗

3.1 缺失值处理

3.2 特征分布

3.3 下采样

4. 特征工程

4.1 相关矩阵

4.1.1 与破产相关的最高特征

将代码集体所有权进行到底！

联系我们

融实践库

微信公众号

微信视频号

社区微信群