Python Pandas之描述性统计
有很多方法用来集体计算DataFrame
的描述性统计信息和其他相关操作.
函数和说明
下面来了解Python Pandas中描述性统计信息的函数,下表列出了重要函数 -
编号
函数
描述
1
count()
非空观测数量
2
sum()
所有值之和
3
mean()
所有值的平均值
4
median()
所有值的中位数
5
mode()
值的模值
6
std()
值的标准偏差
7
min()
所有值中的最小值
8
max()
所有值中的最大值
9
abs()
绝对值
10
prod()
数组元素的乘积
11
cumsum()
累计总和
12
cumprod()
累计乘积
注 - 由于DataFrame是异构数据结构。通用操作不适用于所有函数。
- 类似于:
sum()
,cumsum()
函数能与数字和字符(或)字符串数据元素一起工作,不会产生任何错误。字符聚合从来都比较少被使用,虽然这些函数不会引发任何异常。- 由于这样的操作无法执行,因此,当DataFrame包含字符或字符串数据时,像
abs()
,cumprod()
这样的函数会抛出异常。
代码举例:
import pandas as pd
import numpy as np
# Create a Dictionary of series
d = {‘Name’: pd.Series([‘Tom’, ‘James’, ‘Ricky’, ‘Vin’, ‘Steve’, ‘Minsu’, ‘Jack’,
‘Lee’, ‘David’, ‘Gasper’, ‘Betina’, ‘Andres’]),
‘Age’: pd.Series([25, 26, 25, 23, 30, 29, 23, 34, 40, 30, 51, 46]),
‘Rating’: pd.Series([4.23, 3.24, 3.98, 2.56, 3.20, 4.6, 3.8, 3.78, 2.98, 4.80, 4.10, 3.65])}
# Create a DataFrame
df = pd.DataFrame(d)
print(df.sum()) # 请求轴的值的总和。 默认情况下,轴为索引(axis=0)
print(df.sum(1))
print(df.mean()) # 平均值
print(df.std()) # 数字列的Bressel标准偏差
print(df.describe()) # 汇总数据
print(df.describe(include=[‘number’])) # object - 汇总字符串列,number - 汇总数字列,all - 将所有列汇总在一起(不应将其作为列表值传递)