扫码阅读
手机扫码阅读

数据科学中的统计学

138 2024-10-23

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:数据科学中的统计学
文章来源:
一个数据人的自留地
扫码关注公众号
摘要

数据人学习平台已经上线,网址为:www.shujurenclub.com,由“数据人创作者联盟”成员@Tom&Jerry介绍。

1. 描述单个数据集

描述小型数据集可以直接使用列表,但对于大型数据集需要使用统计学方法。通过使用Counter和plt.bar将数据呈现在直方图中,可以直观展示各数值出现次数。然而,仅通过直方图还不足以清晰沟通,需要计算统计量如样本大小、最大值和最小值。

1.2 中心倾向

中心倾向通常通过均值来了解,添加更多数据点时,均值会发生变化。中位数是另一个度量中心的方式,取决于数据集的奇偶性。中位数的泛化概念是分位数,表示排序后某个百分比位置的数据值。众数则是指出现次数最多的一个或多个值。

1.3 离散度

离散度度量数据的离散程度,极差是最简单的离散度度量方式,但它可能受异常值影响。更复杂的离散度度量方式是方差,其平方单位难以理解,因此常常使用标准差。为了获得更稳健的度量,可以计算75%和25%分位数之差,即四分位数范围,以减少异常值的影响。

1.4 相关

为了研究两个变量之间的相关性,例如用户在网站上花费的时间和他们拥有的朋友数量,可以计算协方差。协方差衡量两个变量与其均值的共同偏离程度,但由于其单位不直观,故更常用的是相关系数。相关系数是协方差除以两个变量标准差的值,范围在-1到1之间,其中0.25表示较弱的正相关。异常值的出现需要注意,应排除以避免干扰。若想进一步了解数据知识,可参考《大数据实践之路:数据中台+数据分析+产品应用》一书。

想要了解更多内容?

查看原文:数据科学中的统计学
文章来源:
一个数据人的自留地
扫码关注公众号

数据人交流和学习的社区,关注我们,掌握专业数据知识、结识更多的数据小伙伴。

249 篇文章
浏览 35K
加入社区微信群
与行业大咖零距离交流学习
软件研发质量管理体系建设 白皮书上线