有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作.

函数和说明

下面来了解Python Pandas中描述性统计信息的函数,下表列出了重要函数 -

编号

函数

描述

1

count()

非空观测数量

2

sum()

所有值之和

3

mean()

所有值的平均值

4

median()

所有值的中位数

5

mode()

值的模值

6

std()

值的标准偏差

7

min()

所有值中的最小值

8

max()

所有值中的最大值

9

abs()

绝对值

10

prod()

数组元素的乘积

11

cumsum()

累计总和

12

cumprod()

累计乘积

注 - 由于DataFrame是异构数据结构。通用操作不适用于所有函数。

  • 类似于:sum()cumsum()函数能与数字和字符(或)字符串数据元素一起工作,不会产生任何错误。字符聚合从来都比较少被使用,虽然这些函数不会引发任何异常。
  • 由于这样的操作无法执行,因此,当DataFrame包含字符或字符串数据时,像abs()cumprod()这样的函数会抛出异常。

代码举例:

import pandas as pd
import numpy as np

# Create a Dictionary of series
d = {‘Name’: pd.Series([‘Tom’, ‘James’, ‘Ricky’, ‘Vin’, ‘Steve’, ‘Minsu’, ‘Jack’,
‘Lee’, ‘David’, ‘Gasper’, ‘Betina’, ‘Andres’]),
‘Age’: pd.Series([25, 26, 25, 23, 30, 29, 23, 34, 40, 30, 51, 46]),
‘Rating’: pd.Series([4.23, 3.24, 3.98, 2.56, 3.20, 4.6, 3.8, 3.78, 2.98, 4.80, 4.10, 3.65])}

# Create a DataFrame
df = pd.DataFrame(d)
print(df.sum()) # 请求轴的值的总和。 默认情况下,轴为索引(axis=0)
print(df.sum(1))
print(df.mean()) # 平均值
print(df.std()) # 数字列的Bressel标准偏差
print(df.describe()) # 汇总数据
print(df.describe(include=[‘number’])) # object - 汇总字符串列,number - 汇总数字列,all - 将所有列汇总在一起(不应将其作为列表值传递)

代码 Github地址:https://github.com/shadowagnoy/python_learn/