扫码阅读
手机扫码阅读

Pandas图鉴(三):DataFrames

116 2024-10-16

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:Pandas图鉴(三):DataFrames
文章来源:
数据STUDIO
扫码关注公众号

摘要

Pandas介绍:Pandas是Python分析数据的核心工具,它基于NumPy库,提供了便捷的数据加载、过滤、重组与可视化功能。Pandas的主要优势在于支持异质类型和提供高效的索引功能,这使得Pandas能与Excel和数据库竞争。

Polars简介:Polars是Pandas的一个新版本,使用Rust语言编写,提供了更快的速度,尽管没有使用NumPy引擎,但保持了类似的语法,便于Pandas用户迁移。

Pandas 图鉴系列

该系列包含四个部分,分别介绍Pandas与Numpy的比较、Series和Index、DataFrames和MultiIndex。文章建议订阅@数据STUDIO公众号获取更多内容。

DataFrames概述

Pandas的DataFrame是其主要数据结构,类似二维数组,并为行列提供了标签。DataFrame的创建可以通过读取CSV文件,其中pd.read_csv()函数功能强大,能自动检测列名、数据类型等信息。DataFrame还支持将列设置为索引,优化查询速度和内存使用,但语法可能更复杂。

创建DataFrame

可以直接从内存中的数据构建DataFrame,无论是通过列表、字典还是NumPy数组。提供的数据可以自动转换为合适的格式,但从二维NumPy数组创建时,默认为视图,意味着原始数据的改变会影响DataFrame。还可以从字典列表或Series字典创建DataFrame,这在添加流数据时特别有用。

基本操作

DataFrame允许轻松访问列,并对这些列执行操作。例如,可以创建新列或对不同DataFrame的列进行计算。索引DataFrame时,使用lociloc进行标签或位置索引,但要留意赋值操作可能只影响副本而非原始DataFrame。

索引DataFrames

标准的方括号索引有限,Pandas提供lociloc进行高级索引。当需要改变原始DataFrame时,应使用正确的语法来避免只修改副本。Pandas也支持NumPy风格的布尔索引,对单个值的操作需要注意可能返回的是Series而不是标量。

查询

字符串基于的查询是另一种索引方式,可以简化复杂条件的查询。

想要了解更多内容?

查看原文:Pandas图鉴(三):DataFrames
文章来源:
数据STUDIO
扫码关注公众号