数据科学中的统计学
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
数据人学习平台已经上线,网址为:www.shujurenclub.com,由“数据人创作者联盟”成员@Tom&Jerry介绍。
1. 描述单个数据集
描述小型数据集可以直接使用列表,但对于大型数据集需要使用统计学方法。通过使用Counter和plt.bar将数据呈现在直方图中,可以直观展示各数值出现次数。然而,仅通过直方图还不足以清晰沟通,需要计算统计量如样本大小、最大值和最小值。
1.2 中心倾向
中心倾向通常通过均值来了解,添加更多数据点时,均值会发生变化。中位数是另一个度量中心的方式,取决于数据集的奇偶性。中位数的泛化概念是分位数,表示排序后某个百分比位置的数据值。众数则是指出现次数最多的一个或多个值。
1.3 离散度
离散度度量数据的离散程度,极差是最简单的离散度度量方式,但它可能受异常值影响。更复杂的离散度度量方式是方差,其平方单位难以理解,因此常常使用标准差。为了获得更稳健的度量,可以计算75%和25%分位数之差,即四分位数范围,以减少异常值的影响。
1.4 相关
为了研究两个变量之间的相关性,例如用户在网站上花费的时间和他们拥有的朋友数量,可以计算协方差。协方差衡量两个变量与其均值的共同偏离程度,但由于其单位不直观,故更常用的是相关系数。相关系数是协方差除以两个变量标准差的值,范围在-1到1之间,其中0.25表示较弱的正相关。异常值的出现需要注意,应排除以避免干扰。若想进一步了解数据知识,可参考《大数据实践之路:数据中台+数据分析+产品应用》一书。
想要了解更多内容?