熊猫DataFrame转换为二进制 df.round np.round astype

pd.DataFrame0.0 < values < 1.0,我想根据定义的阈值0将其转换为二进制值1 / eps = 0.5

      0     1     2
0  0.35  0.20  0.81
1  0.41  0.75  0.59
2  0.62  0.40  0.94
3  0.17  0.51  0.29

现在,我只有这个for loop,对于大型数据集,它需要花费很长时间:

import numpy as np
import pandas as pd

data = np.array([[.35,.2,.81],[.41,.75,.59],[.62,.4,.94],[.17,.51,.29]])

df = pd.DataFrame(data,index=range(data.shape[0]),columns=range(data.shape[1]))
eps = .5
b = np.zeros((df.shape[0],df.shape[1]))
for i in range(df.shape[0]):
    for j in range(df.shape[1]):
        if df.loc[i,j] < eps:
            b[i,j] = 0
        else:
            b[i,j] = 1
df_bin = pd.DataFrame(b,columns=df.columns,index=df.index)

有人知道转换为二进制值的更有效方法吗?

     0    1    2
0  0.0  0.0  1.0
1  0.0  1.0  1.0
2  1.0  0.0  1.0
3  0.0  1.0  0.0

谢谢

tangtang851130 回答:熊猫DataFrame转换为二进制 df.round np.round astype

df.round

>>> df.round()

np.round

>>> np.round(df)

astype

>>> df.ge(0.5).astype(int)

所有产生

     0    1    2
0  0.0  0.0  1.0
1  0.0  1.0  1.0
2  1.0  0.0  1.0
3  0.0  1.0  0.0

注意:round在这里起作用是因为它会自动在两个整数之间设置.5的阈值。对于自定义阈值,请使用第三种解决方案

,

或者您可以使用np.where()并将值分配给基础数组:

df[:]=np.where(df<0.5,1)

   0  1  2
0  0  0  1
1  0  1  1
2  1  0  1
3  0  1  0
,

由于我们有很多答案,而且都使用不同的方法,所以我对速度比较感到好奇。以为我分享:

# create big test dataframe
dfbig = pd.concat([df]*200000,ignore_index=True)
print(dfbig.shape)

(800000,3)
# pandas round()
%%timeit 
dfbig.round()

101 ms ± 4.63 ms per loop (mean ± std. dev. of 7 runs,10 loops each)
# numpy round()
%%timeit
np.round(dfbig)

104 ms ± 2.71 ms per loop (mean ± std. dev. of 7 runs,10 loops each)
# pandas .ge & .astype
%%timeit
dfbig.ge(0.5).astype(int)

9.32 ms ± 170 µs per loop (mean ± std. dev. of 7 runs,100 loops each)
# numpy.where
%%timeit
np.where(dfbig<0.5,1)

21.5 ms ± 421 µs per loop (mean ± std. dev. of 7 runs,100 loops each)

结局

  1. 熊猫geastype
  2. np.where
  3. np.round
  4. 熊猫round
本文链接:https://www.f2er.com/3165345.html

大家都在问