pandas.DataFrameで置換処理

スポンサーリンク

概要

  • DataFrameでの置換処理をforループでやっているが時間がかかりすぎる
  • where()を用いて一括で処理できる

解決方法

準備

import numpy as np
import pandas as pd

cols = ['var1', 'var2', 'var3', 'var4']
df1 = pd.DataFrame(np.random.randn(4, 4), columns=cols)
df2 = pd.DataFrame(np.arange(16).reshape(4, 4), columns=cols)

df1

       var1      var2      var3      var4
0 -0.083782  0.964222  0.832664 -0.528963
1  0.017696  0.144067  0.093823  0.147779
2 -0.082808 -0.893112 -0.477983 -0.623641
3  0.581019 -1.603081 -0.717007  0.849844

df2

   var1  var2  var3  var4
0     0     1     2     3
1     4     5     6     7
2     8     9    10    11

例:df1の要素のうち、負の要素をdf2の値で置換する

"""置換対象.where(残す条件, 代入する対象)"""
df1.where(df1 >= 0, df2)

       var1       var2       var3       var4
0  0.000000   0.964222   0.832664   3.000000
1  0.017696   0.144067   0.093823   0.147779
2  8.000000   9.000000  10.000000  11.000000
3  0.581019  13.000000  14.000000   0.849844

例:特定の列だけに対して置換処理を行う

下記の場合、var2列がゼロ以上の場合はvar1列の値を用い、負の場合はvar3列の値を用いた列を作成できる。

df1['var1'].where(df1['var2'] >= 0, df1['var3'])

0   -0.083782
1    0.017696
2   -0.477983
3   -0.717007
Name: var1, dtype: float64
スポンサーリンク