扫码阅读
手机扫码阅读

再谈探索性数据分析

24 2024-07-02

探索性数据分析(EDA)是数据分析的基本步骤,涉及数据集的检查、清洗和可视化,以发现模式、异常和关系。本文概述了使用Kaggle提供的农业原材料价格数据集进行EDA的过程。

数据准备

数据集由361行和25列组成,涉及多种原材料价格和价格变化数据。数据加载后,作者发现数据中存在缺失值和非数值类型数据,需要进行数据清洗和转换。清洗包括替换非数值符号、删除缺失值行,并将数据类型转换为浮点数。为了进一步分析,作者将数据按月份索引。

探索性数据分析与可视化

分析准备阶段完成后,使用matplotlib和seaborn库进行数据可视化。通过热图展示了原材料价格之间的相关性,正值表示正相关,负值表示负相关。类似的方法用于展示价格变化的相关性。此外,还对特定原材料的价格和价格变化进行了可视化,展示了价格范围和变动幅度。

用数据分析提问

数据分析的目的是为了回答问题。文章中通过可视化探索了原材料的正常价格变化范围、历史最低价格、最大/最小价格变化等问题。例如,通过直方图查看了价格变化的频率分布,通过线图比较了两种原材料的价格,并展示了所有原材料的价格比较。进一步,作者使用散点图和颜色编码来识别价格变化最剧烈的原材料。

本文通过具体的代码和可视化示例,向读者展示了如何进行探索性数据分析,帮助读者对EDA有了初步的认识和理解。

想要了解更多,点击 查看原文