Python Pandas之描述性统计
有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作. 函数和说明 下面来了解Python Pandas中描述性统计信息的函数,下表列出了重要函数 - 编号 函数 描述 1 count() 非空观测数量 2 sum() 所有值之和 3 mean() 所有值的平均值 4 median() 所有值的中位数 5 mode() 值的模值 6 std() 值的标准偏差 7 min() 所有值中的最小值 8 max() 所有值中的最大值 9 abs() 绝对值 10 prod() 数组元素的乘积 11 cumsum() 累计总和 12 cumprod() 累计乘积 注 - 由于DataFrame是异构数据结构。通用操作不适用于所有函数。 类似于:sum(),cumsum()函数能与数字和字符(或)字符串数据元素一起工作,不会产生任何错误。字符聚合从来都比较少被使用,虽然这些函数不会引发任何异常。 由于这样的操作无法执行,因此,当DataFrame包含字符或字符串数据时,像abs(),cumprod()这样的函数会抛出异常。 代码举例: import pandas...
Python Pandas之Series和DataFrame 的基本属性和方法
Series基本功能 编号 属性或方法 描述 1 axes 返回行轴标签列表。 2 dtype 返回对象的数据类型(dtype)。 3 empty 如果系列为空,则返回True。 4 ndim 返回底层数据的维数,默认定义:1。 5 size 返回基础数据中的元素数。 6 values 将系列作为ndarray返回。 7 head() 返回前n行。 8 tail() 返回最后n行。 DataFrame基本功能 下面来看看数据帧(DataFrame)的基本功能有哪些?下表列出了DataFrame基本功能的重要属性或方法。 编号 属性或方法 描述 1 T 转置行和列。 2 axes 返回一个列,行轴标签和列轴标签作为唯一的成员。 3 dtypes 返回此对象中的数据类型(dtypes)。 4 empty 如果NDFrame完全为空[无项目],则返回为True;...
Python Pandas之DataFrame
数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。 数据帧(DataFrame)的功能特点: 潜在的列是不同的类型 大小可变 标记轴(行和列) 可以对行和列执行算术运算 pandas.DataFrame _pandas_中的DataFrame可以使用以下构造函数创建 - pandas.DataFrame( data, index, columns, dtype, copy) Python 构造函数的参数如下 - 编号 参数 描述 1 data 数据采取各种形式,如:ndarray,series,map,lists,dict,constant和另一个DataFrame。 2 index 对于行标签,要用于结果帧的索引是可选缺省值np.arrange(n),如果没有传递索引值。 3 columns 对于列标签,可选的默认语法是 - np.arange(n)。...
Python Pandas之Series
系列(Series)是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。轴标签统称为索引。 pandas.Series _Pandas_系列可以使用以下构造函数创建 - pandas.Series( data, index, dtype, copy)。 Python 构造函数的参数如下 - 编号 参数 描述 1 data 数据采取各种形式,如:ndarray,list,constants 2 index 索引值必须是唯一的和散列的,与数据的长度相同。 默认np.arange(n)如果没有索引被传递。 3 dtype dtype用于数据类型。如果没有,将推断数据类型 4 copy 复制数据,默认为false。 可以使用各种输入创建一个系列,如 - 数组 字典 标量值或常数 代码举例: import pandas as pd import numpy as np print(pd.Series()) # 创建空的系列 默认Series([], dtype: float64) data = np.array([‘a’, ‘b’, ‘c’,...
Python Pandas数据结构
_Pandas_处理以下三个数据结构 - 系列(Series) 数据帧(DataFrame) 面板(Panel) 这些数据结构构建在_Numpy_数组之上,这意味着它们很快。 维数和描述 考虑这些数据结构的最好方法是,较高维数据结构是其较低维数据结构的容器。 例如,DataFrame是Series的容器,Panel是DataFrame的容器。 数据结构 维数 描述 系列 1 1D标记均匀数组,大小不变。 数据帧 2 一般2D标记,大小可变的表结构与潜在的异质类型的列。 面板 3 一般3D标记,大小可变数组。 构建和处理两个或更多个维数组是一项繁琐的任务,用户在编写函数时要考虑数据集的方向。 但是使用_Pandas_数据结构,减少了用户的思考。 例如,使用表格数据(DataFrame),在语义上更有用于考虑索引(行)和列,而不是轴0和轴1。 可变性 所有_Pandas_数据结构是值可变的(可以更改),除了系列都是大小可变的。系列是大小不变的。 注...
Python科学计算库Numpy之 线性代数
NumPy - 线性代数 NumPy 包包含numpy.linalg模块,提供线性代数所需的所有功能。 此模块中的一些重要功能如下表所述。 序号 函数及描述 dot 两个数组的点积 vdot 两个向量的点积 inner 两个数组的内积 matmul 两个数组的矩阵积 determinant 数组的行列式 solve 求解线性矩阵方程 inv 寻找矩阵的乘法逆矩阵 numpy.dot() 此函数返回两个数组的点积。 对于二维向量,其等效于矩阵乘法。 对于一维数组,它是向量的内积。 对于 N 维数组,它是a的最后一个轴上的和与b的倒数第二个轴的乘积。 numpy.vdot() 此函数返回两个向量的点积。 如果第一个参数是复数,那么它的共轭复数会用于计算。 如果参数id是多维数组,它会被展开 numpy.inner() 此函数返回一维数组的向量内积。 对于更高的维度,它返回最后一个轴上的和的乘积。 numpy.matmul numpy.matmul()函数返回两个数组的矩阵乘积。...
Python科学计算库Numpy之 矩阵库
NumPy - 矩阵库 NumPy 包包含一个 Matrix库numpy.matlib。此模块的函数返回矩阵而不是返回ndarray对象 代码举例: import numpy.matlib import numpy as np print(np.matlib.empty((2, 2))) # 填充为随机数据 print(np.matlib.zeros((2, 2))) print(np.matlib.ones((2, 2))) print(np.matlib.eye(n=3, M=4, k=0, dtype=float)) print(np.matlib.identity(5, dtype=float)) print(np.matlib.rand(3, 3)) i = np.matrix(‘1,2;3,4’) print(np.asarray(i)) print(np.asmatrix(i)) 代码...
Python科学计算库Numpy之 复制和视图
NumPy - 副本和视图 在执行函数时,其中一些返回输入数组的副本,而另一些返回视图。 当内容物理存储在另一个位置时,称为副本。 另一方面,如果提供了相同内存内容的不同视图,我们将其称为视图。 无复制 简单的赋值不会创建数组对象的副本。 相反,它使用原始数组的相同id()来访问它。 id()返回 Python 对象的通用标识符,类似于 C 中的指针。 此外,一个数组的任何变化都反映在另一个数组上。 例如,一个数组的形状改变也会改变另一个数组的形状。 视图或浅复制 NumPy 拥有ndarray.view()方法,它是一个新的数组对象,并可查看原始数组的相同数据。 与前一种情况不同,新数组的维数更改不会更改原始数据的维数 切片属于视图 深复制 ndarray.copy()函数创建一个深层副本。 它是数组及其数据的完整副本,不与原始数组共享。 import numpy as np a = np.arange(6) b = a b.shape = 3, 2 print(a) print(id(a) == id(b)) # 直接使用 = 复制 a和b 完全一致 c =...
Python科学计算库Numpy之 排序、搜索和计数函数
NumPy - 排序、搜索和计数函数 NumPy中提供了各种排序相关功能。 这些排序函数实现不同的排序算法,每个排序算法的特征在于执行速度,最坏情况性能,所需的工作空间和算法的稳定性。 下表显示了三种排序算法的比较。 种类 速度 最坏情况 工作空间 稳定性 'quicksort'(快速排序) 1 O(n^2) 0 否 'mergesort'(归并排序) 2 O(n*log(n)) ~n/2 是 'heapsort'(堆排序) 3 O(n*log(n)) 0 否 numpy.sort(a, axis, kind, order) 序号 参数及描述 a 要排序的数组 axis 沿着它排序数组的轴,如果没有数组会被展开,沿着最后的轴排序 kind 默认为'quicksort'(快速排序) order 如果数组包含字段,则是要排序的字段 代码举例: import numpy as np a = np.array([[3, 7], [9, 1]]) print(np.sort(a)) print(np.sort(a, axis=0)) dt =...
Python科学计算库Numpy之 统计函数
NumPy - 统计函数 NumPy 有很多有用的统计函数,用于从数组中给定的元素中查找最小,最大,百分标准差和方差等. 代码举例: import numpy as np a = np.array([[3, 7, 5], [8, 4, 3], [2, 4, 9]]) ‘’’ numpy.amin() 和 numpy.amax() 这些函数从给定数组中的元素沿指定轴返回最小值和最大值 ‘’’ print(np.amin(a, axis=0)) print(np.ptp(a, axis=1)) # numpy.ptp()函数返回沿轴的值的范围(最大值 - 最小值) a = np.array([[30, 40, 70], [80, 20, 10], [50, 90, 60]]) print(np.percentile(a, 50)) print(np.percentile(a, 50, axis=1)) # 分位数是统计中使用的度量,表示小于这个值得观察值占某个百分比 print(np.median(a, axis=0)) #...