加载中...

Python Pandas 重建索引

发表于2017-03-17|更新于2017-03-17|开发语言与技巧python

|总字数:279|阅读时长:1分钟|浏览量:

重新索引会更改DataFrame的行标签和列标签。重新索引意味着符合数据以匹配特定轴上的一组给定的标签。可以通过索引来实现多个操作 -

重新排序现有数据以匹配一组新的标签。
在没有标签数据的标签位置插入缺失值(NA)标记。

import pandas as pd
import numpy as np

N = 20

df = pd.DataFrame({
‘A’: pd.date_range(start=‘2016-01-01’, periods=N, freq=‘D’),
‘x’: np.linspace(0, stop=N - 1, num=N),
‘y’: np.random.rand(N),
‘C’: np.random.choice([‘Low’, ‘Medium’, ‘High’], N).tolist(),
‘D’: np.random.normal(100, 10, size=(N)).tolist()
})
print(df)
# reindex the DataFrame
df_reindexed = df.reindex(index=[0, 2, 5], columns=[‘A’, ‘C’, ‘B’])
print(df_reindexed)
df1 = pd.DataFrame(np.random.randn(10, 3), columns=[‘col1’, ‘col2’, ‘col3’])
df2 = pd.DataFrame(np.random.randn(7, 3), columns=[‘col1’, ‘col2’, ‘col3’])
print(df1)
print(df2.reindex_like(df1, method=‘ffill’)) # pad/ffill - 向前填充值 bfill/backfill - 向后填充值 nearest - 从最近的索引值填充
print(df2.reindex_like(df1, method=‘bfill’, limit=1)) # pad/ffill - 向前填充值 bfill/backfill - 向后填充值 nearest - 从最近的索引值填充
print(df2.rename(columns={‘col1’: ‘c1’, ‘col2’: ‘c2’}, index={0: ‘apple’, 1: ‘banana’, 2: ‘durian’}))

代码 Github地址:https://github.com/shadowagnoy/python_learn/

文章作者: JSLEDD

文章链接: https://www.jsledd.cn/2017/03/17/python-pandas-reindex/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 DIUDIU 小菜鸟！

相关推荐

Python Pandas 数据分析实例1

USA.gov Data from Bitly（USA.gov数据集） 2011年，短链接服务（URL shortening service）商Bitly和美国政府网站USA.gov合作，提供了一份从用户中收集来的匿名数据，这些用户使用了结尾为.gov或.mil的短链接。在2011年，这些数据的动态信息每小时都会保存一次，并可供下载。不过在2017年，这项服务被停掉了。代码实例 import json from collections import defaultdict from collections import Counter import pandas as pd import numpy as np def get_counts2(sequence): # 优化方法 counts = defaultdict(int) # 所有的值均会被初始化为0 for x in sequence: counts[x] += 1 return counts def get_counts(sequence): counts = {} for x in...

Python Pandas 分组连接

任何分组(groupby)操作都涉及原始对象的以下操作之一。它们是 - 分割对象应用一个函数结合的结果在许多情况下，我们将数据分成多个集合，并在每个子集上应用一些函数。在应用函数中，可以执行以下操作 - 聚合 - 计算汇总统计转换 - 执行一些特定于组的操作过滤 - 在某些情况下丢弃数据将数据拆分成组 Pandas对象可以分成任何对象。有多种方式来拆分对象，如 - obj.groupby(‘key’) obj.groupby([‘key1’,’key2’]) obj.groupby(key,axis=1) 聚合聚合函数为每个组返回单个聚合值。当创建了分组(group by)对象，就可以对分组数据执行多个聚合操作。一个比较常用的是通过聚合或等效的agg方法聚合一次应用多个聚合函数通过分组系列，还可以传递函数的列表或字典来进行聚合，并生成DataFrame作为输出...

Python Pandas 对缺失数据的处理

数据丢失(缺失)在现实生活中总是一个问题。机器学习和数据挖掘等领域由于数据缺失导致的数据质量差，在模型预测的准确性上面临着严重的问题。在这些领域，缺失值处理是使模型更加准确和有效的重点。现在来看看如何处理使用_Pandas_的缺失值(如NA或NaN)。检查缺失值为了更容易地检测缺失值(以及跨越不同的数组dtype)，Pandas提供了isnull()和notnull()函数，它们也是Series和DataFrame对象的方法 - 缺少数据的计算在求和数据时，NA将被视为0 如果数据全部是NA，那么结果将是NA 清理/填充缺少数据 _Pandas_提供了各种方法来清除缺失的值。fillna()函数可以通过几种方法用非空数据“填充”NA值，在下面的章节中将学习和使用。用标量值替换NaN 以下程序显示如何用0替换NaN。填写NA前进和后退使用重构索引章节讨论的填充概念，来填补缺失的值。丢失缺少的值如果只想排除缺少的值，则使用dropna函数和axis参数。默认情况下，axis =...

Python Pandas 统计聚合函数

统计方法有助于理解和分析数据的行为。现在我们将学习一些统计函数，可以将这些函数应用到_Pandas_的对象上。 pct_change()函数系列，DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较，并计算变化百分比。默认情况下，pct_change()对列进行操作; 如果想应用到行上，那么可使用axis = 1参数。协方差协方差适用于系列数据。Series对象有一个方法cov用来计算序列对象之间的协方差。NA将被自动排除。协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。协方差表示的是两个变量的总体的误差，这与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值，另外一个也大于自身的期望值，那么两个变量之间的协方差就是正值。...

Python Pandas索引和选择数据

Python和NumPy索引运算符"[]"和属性运算符"."。可以在广泛的用例中快速轻松地访问_Pandas_数据结构。然而，由于要访问的数据类型不是预先知道的，所以直接使用标准运算符具有一些优化限制。对于生产环境的代码，我们建议利用本章介绍的优化_Pandas_数据访问方法。 _Pandas_现在支持三种类型的多轴索引; 这三种类型在下表中提到 - 编号索引描述 1 .loc() 基于标签 2 .iloc() 基于整数 3 .ix() 基于标签和整数 .loc() _Pandas_提供了各种方法来完成基于标签的索引。切片时，也包括起始边界。整数是有效的标签，但它们是指标签而不是位置。 .loc()具有多种访问方式，如 - 单个标量标签标签列表切片对象一个布尔数组 loc需要两个单/列表/范围运算符，用","分隔。第一个表示行，第二个表示列。 .iloc() _Pandas_提供了各种方法，以获得纯整数索引。像python和numpy一样，第一个位置是基于0的索引。各种访问方式如下...

Python Pandas选项和自定义

Pandas提供API来自定义其行为的某些方面，大多使用来显示。 API由五个相关函数组成。它们分别是 - get_option() set_option() reset_option() describe_option() option_context() 现在来了解函数是如何工作的。 get_option(param) get_option(param)需要一个参数，并返回下面输出中给出的值 - get_option需要一个参数，并返回下面输出中给出的值 - display.max_rows 显示默认值。解释器读取此值并显示此值作为显示上限的行。 display.max_columns...

评论

数据加载中