扫码阅读
手机扫码阅读
再谈探索性数据分析
236 2024-07-02
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
查看原文:再谈探索性数据分析
文章来源:
见数知理
扫码关注公众号
探索性数据分析(EDA)是数据分析的基本步骤,涉及数据集的检查、清洗和可视化,以发现模式、异常和关系。本文概述了使用Kaggle提供的农业原材料价格数据集进行EDA的过程。
数据准备
数据集由361行和25列组成,涉及多种原材料价格和价格变化数据。数据加载后,作者发现数据中存在缺失值和非数值类型数据,需要进行数据清洗和转换。清洗包括替换非数值符号、删除缺失值行,并将数据类型转换为浮点数。为了进一步分析,作者将数据按月份索引。
探索性数据分析与可视化
分析准备阶段完成后,使用matplotlib和seaborn库进行数据可视化。通过热图展示了原材料价格之间的相关性,正值表示正相关,负值表示负相关。类似的方法用于展示价格变化的相关性。此外,还对特定原材料的价格和价格变化进行了可视化,展示了价格范围和变动幅度。
用数据分析提问
数据分析的目的是为了回答问题。文章中通过可视化探索了原材料的正常价格变化范围、历史最低价格、最大/最小价格变化等问题。例如,通过直方图查看了价格变化的频率分布,通过线图比较了两种原材料的价格,并展示了所有原材料的价格比较。进一步,作者使用散点图和颜色编码来识别价格变化最剧烈的原材料。
本文通过具体的代码和可视化示例,向读者展示了如何进行探索性数据分析,帮助读者对EDA有了初步的认识和理解。
想要了解更多内容?
查看原文:再谈探索性数据分析
文章来源:
见数知理
扫码关注公众号
见数知理的其他文章
加入社区微信群
与行业大咖零距离交流学习
SAFe6.0与CMMI3.0映射
白皮书上线
白皮书上线