Python数据科学手册-Pandas数据处理之简介

2023-06-25,,

Pandas是在Numpy基础上建立的新程序库,提供了一种高效的DataFrame数据结构

本质是带行标签 和 列标签、支持相同类型数据和缺失值的 多维数组

增强版的Numpy结构化数组

行和列不在只是简单的整数索引,还可以带上标签,

三个基本数据结构

Series DataFrame Index

Series

Series将一组数据和一组索引绑定在一起

可以通过values 和 index属性获取数据,

与Numpy数据的区别:Numpy数组通过隐式定义的整数索引获取数值,Pandas 的Series用显示定义的索引与数值关联

Series是特殊的字典

字典是一种将任意键映射到一组任意值的数据结构

Series对象是一种将类型键映射到一组类型值 的数据结构, 类型至关重要。

因为有类型信息,所以比Python字典更高效

可以直接使用Python字典创建一个Series对象

和字典不同,Series对象还支持数组形式的操作

创建Series对象

pd.Series(data, index=index)

index是一个可选参数,data参数支持多种数据类型, 可以是列表 或 Numpy数组, index默认值为整数序列

data可以是个标量,创建对象是会重复填充到每个索引上。

data可以是字典,索引是默认的,不排序,老版本的好像对index进行排序了。

每一种形式都可以通过显示指定索引 筛选需要的结果

Pandas的DataFrame对象

也可以作为一个通用型的Numpy数组,也可以看做特殊的Python字典

DataFrame :通用的Numpy数组

Series是 有 灵活索引的一维 数组 , DataFrame是 一种 既有 灵活的行索引,又有灵活列名 的二维数组 。

DataFrame也可以看成 是若干个Series对象。。索引相同。

index属性获取索引标签

DataFrame还有一个columns属性, 是存放列标签的Index对象:

DataFrame :特殊的字典

字典是一个键映射一个值,而DataFrame是 一个列名映射一个Series的数据。

创建DataFrame对象

1)通过单个Series对象创建。DataFrame是一组Series对象的集合

2)通过字典列表创建。 任何元素是字典的列表都可以变成DataFrame

3)通过Series对象常见,开始介绍那样子。

4)通过Numpy二维数组创建

5)通过Numpy结构化数组创建

Pandas的Index对象

Series 和 DataFrame 对象都使用便于引用和调整的 显示索引。

Pandas的Index对象是一个很有趣的数据结构。 可以将它看作是一个 不可变数组 或 有序集合,

1)将Index看作不可变数组

如果修改索引值会报错。对象的不可变性,使得多个DataFrame和数组之间进行索引共享是更加安全

2)将Index看作有序集合

Pandas对象被设计用于实现多操作。 如连接数据集。并集 交集 差集

不过好像不推荐用这种方式了。哈哈

使用对象方法

Python数据科学手册-Pandas数据处理之简介的相关教程结束。

《Python数据科学手册-Pandas数据处理之简介.doc》

下载本文的Word格式文档,以方便收藏与打印。