小白学 Python 数据分析（10）：Pandas （九）数据运算

人生苦短，我用 Python

前文传送门：

小白学 Python 数据分析（1）：数据分析基础

小白学 Python 数据分析（2）：Pandas （一）概述

小白学 Python 数据分析（3）：Pandas （二）数据结构 Series

小白学 Python 数据分析（4）：Pandas （三）数据结构 DataFrame

小白学 Python 数据分析（5）：Pandas （四）基础操作（1）查看数据

小白学 Python 数据分析（6）：Pandas （五）基础操作（2）数据选择

小白学 Python 数据分析（7）：Pandas （六）数据导入

小白学 Python 数据分析（8）：Pandas （七）数据预处理

小白学 Python 数据分析（9）：Pandas （八）数据预处理（2）

引言

前面我们介绍了很多关于 Pandas 的基础操作以及拿到一份数据后首先要做的是对数据的基础预处理。

本篇我们接着介绍当我们处理完数据后，可以对数据进行的一些计算操作。

本篇文章使用的数据为泰坦尼克的数据集，具体的数据集已经上传至代码仓库，有需要的同学可以自行取用。

数据来源是著名的 Kaggle ：https://www.kaggle.com/ 。

国内的网络访问有些慢，建议自己想办法，实在不行，可以加小编微信，小编有个神奇的软件，特别好用。

在正文内容开始前，小编先把数据中的表名的中英文对照列出来：

PassengerId : 乘客ID
Survived : 是否幸存
Pclass : 乘客等级(1/2/3等舱位)
Name : 姓名
Sex : 性别
Age : 年龄
SibSp : 堂兄弟/妹个数
Parch : 父母与小孩个数
Ticket : 船票信息
Fare : 票价
Cabin : 客舱
Embarked : 登船港口

预处理

首先，我们拿到数据的第一步是先检查一下数据质量，通过方法 info() 看下有数据质量：

import pandas as pd

# 数据导入

data_train = pd.read_csv("train.csv")

# 数据查看

print(data_train.info())

# 输出内容

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 891 entries, 0 to 890

Data columns (total 12 columns):

PassengerId    891 non-null int64

Survived       891 non-null int64

Pclass         891 non-null int64

Name           891 non-null object

Sex            891 non-null object

Age            714 non-null float64

SibSp          891 non-null int64

Parch          891 non-null int64

Ticket         891 non-null object

Fare           891 non-null float64

Cabin          204 non-null object

Embarked       889 non-null object

dtypes: float64(2), int64(5), object(5)

memory usage: 83.7+ KB

None

上面这些数据到底说了个啥？

看过我前面文章的同学应该知道，info() 这个方法经常用作查看数据空值，很不辛，这里有些属性的数据不全，如：

Age（年龄）属性只有714名乘客有记录
Cabin（客舱）更是只有204名乘客是已知的

这里我们进一步使用 describe() 看下这批数据的统计分析数据：

print(data_train.describe())

# 输出内容

       PassengerId    Survived      Pclass         Age       SibSp  \

count   891.000000  891.000000  891.000000  714.000000  891.000000

mean    446.000000    0.383838    2.308642   29.699118    0.523008

std     257.353842    0.486592    0.836071   14.526497    1.102743

min       1.000000    0.000000    1.000000    0.420000    0.000000

25%     223.500000    0.000000    2.000000   20.125000    0.000000

50%     446.000000    0.000000    3.000000   28.000000    0.000000

75%     668.500000    1.000000    3.000000   38.000000    1.000000

max     891.000000    1.000000    3.000000   80.000000    8.000000   

            Parch        Fare

count  891.000000  891.000000

mean     0.381594   32.204208

std      0.806057   49.693429

min      0.000000    0.000000

25%      0.000000    7.910400

50%      0.000000   14.454200

75%      0.000000   31.000000

max      6.000000  512.329200

能看出来啥呢？

如果把目光聚焦在 mean 这一行上，可以看到大概 0.383838 的人最后获救了，在 2 / 3 等仓的人要比 1 等仓的多得多（这不是废话），平均年龄大概是 29.699118 （这个值计算的时候会忽略掉空值）等等。

算数运算

emmmmmmmmmm，写到这里小编发现个问题，用这份数据演示算数运算属实有点不大合适，满脸尴尬。

小编这么懒的人都写到这了，肯定是不会换数据集了，各位看官就这么凑合着看吧，先声明一下，以下演示均无实际意义。

这一小节的标题是算数运算，那无非是加减乘除嘛，首先来看下两列相加的示例，这里是把堂兄弟姐妹和父母小孩加在一起，结果稍微有点意义，这个乘客的所有亲属：

print(data_train['SibSp'] + data_train['Parch'])

# 输出内容

0      1

1      1

2      0

3      1

4      0

      ..

886    0

887    0

888    3

889    0

890    0

Length: 891, dtype: int64

两列相减，这里我们使用这个乘客的所有亲属再加上他本身减去存活人数，示例如下：

print(data_train['SibSp'] + data_train['Parch'] + 1 - data_train['Survived'])

# 输出内容

0      2

1      1

2      0

3      1

4      1

      ..

886    1

887    0

888    4

889    0

890    1

Length: 891, dtype: int64

乘除同理，小编这里就不演示，各位同学可以自己动手试试。

比较

这里我们选用存活数和亲属数量做比较，几个简单的示例：

print(data_train['Survived'] > (data_train['SibSp'] + data_train['Parch']))

# 输出内容

0      False

1      False

2       True

3      False

4      False

       ...

886    False

887     True

888    False

889     True

890    False

Length: 891, dtype: bool

同理，这里除了可以使用 > 还可以使用 >= 、 != 、 < 和 <= 等运算符。

统计分析

前面我们使用 describe() 这个方法自动的获取过当前数据集的一些统计数据，那么我们如何手动的来获取它呢？

统计非空值

首先是 count() 统计非空值：

# 按列统计

print(data_train.count())

# 输出内容

PassengerId    891

Survived       891

Pclass         891

Name           891

Sex            891

Age            714

SibSp          891

Parch          891

Ticket         891

Fare           891

Cabin          204

Embarked       889

dtype: int64

# 按行统计

print(data_train.count(axis=1))

# 输出内容

0      11

1      12

2      11

3      12

4      11

       ..

886    11

887    12

888    10

889    12

890    11

Length: 891, dtype: int64

# 某一列单独统计

print(data_train['Age'].count())

# 输出内容

714

求和

接下来是求和， sum 这个函数想必各位都在 Excel 中用过，那么在 Pandas 中是如何使用的，请看下面的示例：

# 按列求和

print(data_train.sum())

# 输出内容

PassengerId                                               397386

Survived                                                     342

Pclass                                                      2057

Name           Braund, Mr. Owen HarrisCumings, Mrs. John Brad...

Sex            malefemalefemalefemalemalemalemalemalefemalefe...

Age                                                      21205.2

SibSp                                                        466

Parch                                                        340

Ticket         A/5 21171PC 17599STON/O2. 31012821138033734503...

Fare                                                     28693.9

dtype: object

# 按行求和

print(data_train.sum(axis=1))

# 输出内容

0       34.2500

1      114.2833

2       40.9250

3       95.1000

4       51.0500

         ...

886    929.0000

887    939.0000

888    918.4500

889    948.0000

890    933.7500

Length: 891, dtype: float64

可以看到，在进行按列求和的时候， Pandas 把非数值类型的列直接将所有的字段拼合在了一起，其实无太大意义。

求算数平均值

接下来是求算数平均值，这个函数是 mean() ，算数平均值有一个特点是极易受到极大极小值的影响，就比如我和小马哥的资产平均超过了 100 亿，这个其实和我基本上没有半毛钱关系。

print(data_train.mean())

# 输出内容

PassengerId    446.000000

Survived         0.383838

Pclass           2.308642

Age             29.699118

SibSp            0.523008

Parch            0.381594

Fare            32.204208

dtype: float64

mean() 实际是上对每一列进行了求平均值的运算，实际上可以通过 axis 参数按行获取平均值，不过在当前的数据集毫无意义，小编这里就不演示了。

求最大最小值

接下来是求最大最小值，在 Excel 其实可以直接通过排序来直观的看到某一列的最大最小值，那么，一起看一下在 Pandas 是如何获取这两个值：

print(data_train.max())

print('------------------------')

print(data_train.min())

# 输出内容

PassengerId                            891

Survived                                 1

Pclass                                   3

Name           van Melkebeke, Mr. Philemon

Sex                                   male

Age                                     80

SibSp                                    8

Parch                                    6

Ticket                           WE/P 5735

Fare                               512.329

dtype: object

--------------------------------------------

PassengerId                      1

Survived                         0

Pclass                           1

Name           Abbing, Mr. Anthony

Sex                         female

Age                           0.42

SibSp                            0

Parch                            0

Ticket                      110152

Fare                             0

dtype: object

可以看到，在 Pandas 中获取最大最小值是使用了两个函数， max() 和 min() ，通过字面意思大家也懂，这里同样要提一下是默认是按照列来获取最大最小值，如果有需要，也可以通过参数 axis 来按照行来获取。

中位数

相比较前面提到过的算数平均数，中位数是一个非常不错的反应一组数据的一般情况的一个数据，不易受到极大值和极小值的影响。

在 Pandas 中，获取中位数是使用 median() 函数：

print(data_train.median())

# 输出内容

PassengerId    446.0000

Survived         0.0000

Pclass           3.0000

Age             28.0000

SibSp            0.0000

Parch            0.0000

Fare            14.4542

dtype: float64

同样， median() 函数也可以通过 axis 参数来按照行进行获取。

众数

众数就是出现次数最多的那个数，这里我们使用到的函数是 mode() ：

print(data_train.mode())

# 输出内容

   Survived  Pclass   Sex   Age  SibSp  Parch  Fare Embarked

0         0       3  male  24.0      0      0  8.05        S 

[891 rows x 12 columns]

# 单独获取某列众数

print(data_train['Sex'].mode())

# 输出内容

0    male

dtype: object

方差标准差

方差和标准差其实都是用来表示数据的离散程度，标准差是方差的平方根。

在 Pandas 中，计算方差是使用 var() 函数，而计算标准差是使用 std() 函数：

print(data_train.var())

# 输出内容

PassengerId    66231.000000

Survived           0.236772

Pclass             0.699015

Age              211.019125

SibSp              1.216043

Parch              0.649728

Fare            2469.436846

dtype: float64

print(data_train.std())

# 输出内容

PassengerId    257.353842

Survived         0.486592

Pclass           0.836071

Age             14.526497

SibSp            1.102743

Parch            0.806057

Fare            49.693429

dtype: float64

各位闲着没事儿的同学可以核实一下把标准差平方一下看看是不是方差。

反正小编怕翻车，是专门核实了一下，确实没有问题，如果哪位同学核实出来有问题，可能是小编这台电脑有问题。

求分位数

分位数是一种比中位数更加详细的根据位置的指标，在统计学中，最常用的是四分位数：

第一四分位数(Q1)，又称「较小四分位数」，等于该样本中所有数值由小到大排列后第 25% 的数字；
第二四分位数(Q2)，又称「中位数」，等于该样本中所有数值由小到大排列后第 50% 的数字；
第三四分位数(Q3)，又称「较大四分位数」，等于该样本中所有数值由小到大排列后第 75% 的数字。

在 Pandas 中，获取分位数是使用 quantile() 函数，但是在使用的过程中，一定要标识清楚去的分位数值：

print(data_train.quantile(0.25))

print('-----------------------------------------')

print(data_train.quantile(0.5))

# 输出内容

PassengerId    223.5000

Survived         0.0000

Pclass           2.0000

Age             20.1250

SibSp            0.0000

Parch            0.0000

Fare             7.9104

Name: 0.25, dtype: float64

-----------------------------------------

PassengerId    446.0000

Survived         0.0000

Pclass           3.0000

Age             28.0000

SibSp            0.0000

Parch            0.0000

Fare            14.4542

Name: 0.5, dtype: float64

这里的验证可以对比我们前面取出来的中位数，看下是否一致就好，如果不一致，可能需要换电脑了。

示例代码

老规矩，所有的示例代码都会上传至代码管理仓库 Github 和 Gitee 上，方便大家取用。

示例代码-Github

示例代码-Gitee

参考

https://baike.baidu.com/item/分位数/10064158?fr=aladdin

https://blog.csdn.net/walking_visitor/article/details/85128461

小白学 Python 数据分析（10）：Pandas （九）数据运算

引言

预处理

算数运算

比较

统计分析

统计非空值

求和

求算数平均值

求最大最小值

中位数

众数

方差标准差

求分位数

相关性

示例代码

参考

小白学 Python 数据分析（10）：Pandas （九）数据运算的相关教程结束。

相关推荐

【pandas小技巧】--数据转置

Sourcetrail 代码分析工具的使用

flink-cdc同步mysql数据到elasticsearch

使用 Easysearch 还原 Elasticsearch 快照数据

pytest数据参数化和数据驱动yaml的简单使用

「学习笔记」模运算与 BSGS 算法

数据分析05-matplotlib基本绘图、高级绘图

Python从零到壹丨图像增强的顶帽运算和底帽运算