扫码阅读
手机扫码阅读

Pandas图鉴(二):Series 和 Index

78 2024-10-16

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:Pandas图鉴(二):Series 和 Index
文章来源:
数据STUDIO
扫码关注公众号

概述

Pandas是Python中分析数据的工业标准库,构建于NumPy库上,提供了丰富的数据处理功能。Pandas引入了异质类型和索引两大关键特性,增强了数据处理能力。Polars是Pandas的一个类似工具,使用Rust编写,速度更快。

Pandas 图鉴系列文章

该系列文章分为四个部分,分别介绍Pandas与NumPy的比较、Series和Index、DataFrames以及MultiIndex的使用。文章建议读者关注@数据STUDIO公众号以获取更多精彩内容。

Series 和 Index

Series是Pandas中一维数组的对应物,具有类型同质性和索引功能。Series可以通过位置或标签进行访问,但混淆情况下可以使用.loc[]和.iloc[]以避免歧义。Pandas还支持布尔索引和花式索引。Series的外观可以通过pdi库进行优化,以更美观的方式显示。

索引

索引是Pandas中通过标签访问元素的快速对象,是多态的且不可变。它可以是轻量级的范围类结构,也可以是完整的列表,取决于数据操作。索引的唯一性对查询速度至关重要,而MultiIndex允许使用多个字段来唯一标识数据行。

按值查找元素和处理缺失值

可以通过索引或pdi库提供的find()和findall()函数来查找值。Pandas中的缺失值通常以NaN表示,可以通过各种方法识别和处理。算术操作会考虑索引的一致性,而对缺失值的比较则需要特殊处理以确保正确性。

添加、插入、删除

虽然Series对象本应是不可变的,但Pandas仍然提供了在原地进行元素添加、插入和删除的方法。这些操作通常都比较慢且不方便,因为它们需要重新分配内存和更新索引。Pandas提供了df.insert方法进行列的插入,并可以使用concat进行切片和重组。

参考资料和公众号推荐

文章末尾列出了相关参考资料,并推荐了原创公众号『数据STUDIO』,该公众号提供丰富的数据科学领域内容,包括Python、MySQL、数据分析和可视化、机器学习与数据挖掘、爬虫等。

想要了解更多内容?

查看原文:Pandas图鉴(二):Series 和 Index
文章来源:
数据STUDIO
扫码关注公众号