DIUDIU 小菜鸟

发表于2017-03-16|更新于2017-03-16|开发语言与技巧python

要将自己或其他库的函数应用于_Pandas_对象，应该了解三种重要的方法。以下讨论了这些方法。使用适当的方法取决于函数是否期望在整个DataFrame，行或列或元素上进行操作。表格函数应用：pipe() 行或列函数应用：apply() 元素函数应用：applymap() 表格函数应用可以通过将函数和适当数量的参数作为管道参数来执行自定义操作。因此，对整个DataFrame执行操作行或列智能函数应用可以使用apply()方法沿DataFrame或Panel的轴应用任意函数，它与描述性统计方法一样，采用可选的轴参数。默认情况下，操作按列执行，将每列列为数组。元素智能函数应用并不是所有的函数都可以向量化(也不是返回另一个数组的NumPy数组，也不是任何值)，在DataFrame上的方法applymap()和类似地在Series上的map()接受任何Python函数，并且返回单个值。代码实例： import pandas as pd import numpy as np df = pd.DataFrame(np.random.randn(5, 3),...

Python Pandas之描述性统计

发表于2017-03-15|更新于2017-03-15|开发语言与技巧python

有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作. 函数和说明下面来了解Python Pandas中描述性统计信息的函数，下表列出了重要函数 - 编号函数描述 1 count() 非空观测数量 2 sum() 所有值之和 3 mean() 所有值的平均值 4 median() 所有值的中位数 5 mode() 值的模值 6 std() 值的标准偏差 7 min() 所有值中的最小值 8 max() 所有值中的最大值 9 abs() 绝对值 10 prod() 数组元素的乘积 11 cumsum() 累计总和 12 cumprod() 累计乘积注 - 由于DataFrame是异构数据结构。通用操作不适用于所有函数。类似于：sum()，cumsum()函数能与数字和字符(或)字符串数据元素一起工作，不会产生任何错误。字符聚合从来都比较少被使用，虽然这些函数不会引发任何异常。由于这样的操作无法执行，因此，当DataFrame包含字符或字符串数据时，像abs()，cumprod()这样的函数会抛出异常。代码举例： import pandas...

Python Pandas之Series和DataFrame 的基本属性和方法

发表于2017-03-14|更新于2017-03-14|开发语言与技巧python

Series基本功能编号属性或方法描述 1 axes 返回行轴标签列表。 2 dtype 返回对象的数据类型(dtype)。 3 empty 如果系列为空，则返回True。 4 ndim 返回底层数据的维数，默认定义：1。 5 size 返回基础数据中的元素数。 6 values 将系列作为ndarray返回。 7 head() 返回前n行。 8 tail() 返回最后n行。 DataFrame基本功能下面来看看数据帧(DataFrame)的基本功能有哪些？下表列出了DataFrame基本功能的重要属性或方法。编号属性或方法描述 1 T 转置行和列。 2 axes 返回一个列，行轴标签和列轴标签作为唯一的成员。 3 dtypes 返回此对象中的数据类型(dtypes)。 4 empty 如果NDFrame完全为空[无项目]，则返回为True;...

Python Pandas之DataFrame

发表于2017-03-13|更新于2017-03-13|开发语言与技巧python

数据帧(DataFrame)是二维数据结构，即数据以行和列的表格方式排列。数据帧(DataFrame)的功能特点：潜在的列是不同的类型大小可变标记轴(行和列) 可以对行和列执行算术运算 pandas.DataFrame _pandas_中的DataFrame可以使用以下构造函数创建 - pandas.DataFrame( data, index, columns, dtype, copy) Python 构造函数的参数如下 - 编号参数描述 1 data 数据采取各种形式，如:ndarray，series，map，lists，dict，constant和另一个DataFrame。 2 index 对于行标签，要用于结果帧的索引是可选缺省值np.arrange(n)，如果没有传递索引值。 3 columns 对于列标签，可选的默认语法是 - np.arange(n)。...

Python Pandas之Series

发表于2017-03-12|更新于2017-03-12|开发语言与技巧python

系列(Series)是能够保存任何类型的数据(整数，字符串，浮点数，Python对象等)的一维标记数组。轴标签统称为索引。 pandas.Series _Pandas_系列可以使用以下构造函数创建 - pandas.Series( data, index, dtype, copy)。 Python 构造函数的参数如下 - 编号参数描述 1 data 数据采取各种形式，如：ndarray，list，constants 2 index 索引值必须是唯一的和散列的，与数据的长度相同。默认np.arange(n)如果没有索引被传递。 3 dtype dtype用于数据类型。如果没有，将推断数据类型 4 copy 复制数据，默认为false。可以使用各种输入创建一个系列，如 - 数组字典标量值或常数代码举例： import pandas as pd import numpy as np print(pd.Series()) # 创建空的系列默认Series([], dtype: float64) data = np.array([‘a’, ‘b’, ‘c’,...

Python Pandas数据结构

发表于2017-03-11|更新于2017-03-11|开发语言与技巧python

_Pandas_处理以下三个数据结构 - 系列(Series) 数据帧(DataFrame) 面板(Panel) 这些数据结构构建在_Numpy_数组之上，这意味着它们很快。维数和描述考虑这些数据结构的最好方法是，较高维数据结构是其较低维数据结构的容器。例如，DataFrame是Series的容器，Panel是DataFrame的容器。数据结构维数描述系列 1 1D标记均匀数组，大小不变。数据帧 2 一般2D标记，大小可变的表结构与潜在的异质类型的列。面板 3 一般3D标记，大小可变数组。构建和处理两个或更多个维数组是一项繁琐的任务，用户在编写函数时要考虑数据集的方向。但是使用_Pandas_数据结构，减少了用户的思考。例如，使用表格数据(DataFrame)，在语义上更有用于考虑索引(行)和列，而不是轴0和轴1。可变性所有_Pandas_数据结构是值可变的(可以更改)，除了系列都是大小可变的。系列是大小不变的。注...

Python科学计算库Numpy之线性代数

发表于2017-03-10|更新于2017-03-10|开发语言与技巧python

NumPy - 线性代数 NumPy 包包含numpy.linalg模块，提供线性代数所需的所有功能。此模块中的一些重要功能如下表所述。序号函数及描述 dot 两个数组的点积 vdot 两个向量的点积 inner 两个数组的内积 matmul 两个数组的矩阵积 determinant 数组的行列式 solve 求解线性矩阵方程 inv 寻找矩阵的乘法逆矩阵 numpy.dot() 此函数返回两个数组的点积。对于二维向量，其等效于矩阵乘法。对于一维数组，它是向量的内积。对于 N 维数组，它是a的最后一个轴上的和与b的倒数第二个轴的乘积。 numpy.vdot() 此函数返回两个向量的点积。如果第一个参数是复数，那么它的共轭复数会用于计算。如果参数id是多维数组，它会被展开 numpy.inner() 此函数返回一维数组的向量内积。对于更高的维度，它返回最后一个轴上的和的乘积。 numpy.matmul numpy.matmul()函数返回两个数组的矩阵乘积。...

Python科学计算库Numpy之矩阵库

发表于2017-03-09|更新于2017-03-09|开发语言与技巧python

NumPy - 矩阵库 NumPy 包包含一个 Matrix库numpy.matlib。此模块的函数返回矩阵而不是返回ndarray对象代码举例： import numpy.matlib import numpy as np print(np.matlib.empty((2, 2))) # 填充为随机数据 print(np.matlib.zeros((2, 2))) print(np.matlib.ones((2, 2))) print(np.matlib.eye(n=3, M=4, k=0, dtype=float)) print(np.matlib.identity(5, dtype=float)) print(np.matlib.rand(3, 3)) i = np.matrix(‘1,2;3,4’) print(np.asarray(i)) print(np.asmatrix(i)) 代码...

Python科学计算库Numpy之复制和视图

发表于2017-03-09|更新于2017-03-09|开发语言与技巧python

NumPy - 副本和视图在执行函数时，其中一些返回输入数组的副本，而另一些返回视图。当内容物理存储在另一个位置时，称为副本。另一方面，如果提供了相同内存内容的不同视图，我们将其称为视图。无复制简单的赋值不会创建数组对象的副本。相反，它使用原始数组的相同id()来访问它。 id()返回 Python 对象的通用标识符，类似于 C 中的指针。此外，一个数组的任何变化都反映在另一个数组上。例如，一个数组的形状改变也会改变另一个数组的形状。视图或浅复制 NumPy 拥有ndarray.view()方法，它是一个新的数组对象，并可查看原始数组的相同数据。与前一种情况不同，新数组的维数更改不会更改原始数据的维数切片属于视图深复制 ndarray.copy()函数创建一个深层副本。它是数组及其数据的完整副本，不与原始数组共享。 import numpy as np a = np.arange(6) b = a b.shape = 3, 2 print(a) print(id(a) == id(b)) # 直接使用 = 复制 a和b 完全一致 c =...

Python科学计算库Numpy之排序、搜索和计数函数

发表于2017-03-08|更新于2017-03-08|开发语言与技巧python

NumPy - 排序、搜索和计数函数 NumPy中提供了各种排序相关功能。这些排序函数实现不同的排序算法，每个排序算法的特征在于执行速度，最坏情况性能，所需的工作空间和算法的稳定性。下表显示了三种排序算法的比较。种类速度最坏情况工作空间稳定性 'quicksort'（快速排序） 1 O(n^2) 0 否 'mergesort'（归并排序） 2 O(n*log(n)) ~n/2 是 'heapsort'（堆排序） 3 O(n*log(n)) 0 否 numpy.sort(a, axis, kind, order) 序号参数及描述 a 要排序的数组 axis 沿着它排序数组的轴，如果没有数组会被展开，沿着最后的轴排序 kind 默认为'quicksort'（快速排序） order 如果数组包含字段，则是要排序的字段代码举例： import numpy as np a = np.array([[3, 7], [9, 1]]) print(np.sort(a)) print(np.sort(a, axis=0)) dt =...