I have a python pandas dataframe with several columns and one column has <code>0</code> values. I want to replace the <code>0</code> values with the <code>median</code> or <code>mean</code> of this column. <code>data</code> is my dataframe <code>artist_hotness</code> is the column <pre class="prettyprint"><code>mean_artist_hotness = data['artist_hotness'].dropna().mean() if len(data.artist_hotness[ data.artist_hotness.isnull() ]) > 0: data.artist_hotness.loc[ (data.artist_hotness.isnull()), 'artist_hotness'] = mean_artist_hotness </code></pre> I tried this, but it is not working.

I think you can use <code>mask</code> and add parameter <code>skipna=True</code> to <code>mean</code> instead <code>dropna</code>. Also need change condition to <code>data.artist_hotness == 0</code> if need replace <code>0</code> values or <code>data.artist_hotness.isnull()</code> if need replace <code>NaN</code> values: <pre class="prettyprint"><code>import pandas as pd import numpy as np data = pd.DataFrame({'artist_hotness': [0,1,5,np.nan]}) print (data) artist_hotness 0 0.0 1 1.0 2 5.0 3 NaN mean_artist_hotness = data['artist_hotness'].mean(skipna=True) print (mean_artist_hotness) 2.0 data['artist_hotness']=data.artist_hotness.mask(data.artist_hotness == 0,mean_artist_hotness) print (data) artist_hotness 0 2.0 1 1.0 2 5.0 3 NaN </code></pre> <hr> Alternatively use <code>loc</code>, but omit column name: <pre class="prettyprint"><code>data.loc[data.artist_hotness == 0, 'artist_hotness'] = mean_artist_hotness print (data) artist_hotness 0 2.0 1 1.0 2 5.0 3 NaN data.artist_hotness.loc[data.artist_hotness == 0, 'artist_hotness'] = mean_artist_hotness print (data) </code></pre> <blockquote> IndexingError: (0 True 1 False 2 False 3 False Name: artist_hotness, dtype: bool, 'artist_hotness') </blockquote> Another solution is <code>DataFrame.replace</code> with specifying columns: <pre class="prettyprint"><code>data=data.replace({'artist_hotness': {0: mean_artist_hotness}}) print (data) aa artist_hotness 0 0.0 2.0 1 1.0 1.0 2 5.0 5.0 3 NaN NaN </code></pre> Or if need replace all <code>0</code> values in all columns: <pre class="prettyprint"><code>import pandas as pd import numpy as np data = pd.DataFrame({'artist_hotness': [0,1,5,np.nan], 'aa': [0,1,5,np.nan]}) print (data) aa artist_hotness 0 0.0 0.0 1 1.0 1.0 2 5.0 5.0 3 NaN NaN mean_artist_hotness = data['artist_hotness'].mean(skipna=True) print (mean_artist_hotness) 2.0 data=data.replace(0,mean_artist_hotness) print (data) aa artist_hotness 0 2.0 2.0 1 1.0 1.0 2 5.0 5.0 3 NaN NaN </code></pre> If need replace <code>NaN</code> in all columns use <code>DataFrame.fillna</code>: <pre class="prettyprint"><code>data=data.fillna(mean_artist_hotness) print (data) aa artist_hotness 0 0.0 0.0 1 1.0 1.0 2 5.0 5.0 3 2.0 2.0 </code></pre> But if only in some columns use <code>Series.fillna</code>: <pre class="prettyprint"><code>data['artist_hotness'] = data.artist_hotness.fillna(mean_artist_hotness) print (data) aa artist_hotness 0 0.0 0.0 1 1.0 1.0 2 5.0 5.0 3 NaN 2.0 </code></pre>

Found these very useful, although <code>mask</code> is really slow (not sure why). I did this: <pre class="prettyprint"><code>df.loc[ df['artist_hotness'] == 0 | np.isnan(df['artist_hotness']), 'artist_hotness' ] = df['artist_hotness'].median() </code></pre>

Python/Pandas Dataframe replace 0 with median value

Tags:

python

pandas

dataframe

mean

median

I have a python pandas dataframe with several columns and one column has 0 values. I want to replace the 0 values with the median or mean of this column.

data is my dataframe
artist_hotness is the column

mean_artist_hotness = data['artist_hotness'].dropna().mean()

if len(data.artist_hotness[ data.artist_hotness.isnull() ]) > 0:
data.artist_hotness.loc[ (data.artist_hotness.isnull()), 'artist_hotness'] = mean_artist_hotness

I tried this, but it is not working.

492

asked May 29 '16 05:05

jeangelj

3 Answers

use pandas replace method:

df = pd.DataFrame({'a': [1,2,3,4,0,0,0,0], 'b': [2,3,4,6,0,5,3,8]}) 

df 
   a  b
0  1  2
1  2  3
2  3  4
3  4  6
4  0  0
5  0  5
6  0  3
7  0  8

df['a']=df['a'].replace(0,df['a'].mean())

df
   a  b
0  1  2
1  2  3
2  3  4
3  4  6
4  1  0
5  1  5
6  1  3
7  1  8

150

answered Oct 20 '22 19:10

shivsn

I think you can use mask and add parameter skipna=True to mean instead dropna. Also need change condition to data.artist_hotness == 0 if need replace 0 values or data.artist_hotness.isnull() if need replace NaN values:

import pandas as pd
import numpy as np

data = pd.DataFrame({'artist_hotness': [0,1,5,np.nan]})
print (data)
   artist_hotness
0             0.0
1             1.0
2             5.0
3             NaN

mean_artist_hotness = data['artist_hotness'].mean(skipna=True)
print (mean_artist_hotness)
2.0

data['artist_hotness']=data.artist_hotness.mask(data.artist_hotness == 0,mean_artist_hotness)
print (data)
   artist_hotness
0             2.0
1             1.0
2             5.0
3             NaN

Alternatively use loc, but omit column name:

data.loc[data.artist_hotness == 0, 'artist_hotness'] = mean_artist_hotness
print (data)
   artist_hotness
0             2.0
1             1.0
2             5.0
3             NaN

data.artist_hotness.loc[data.artist_hotness == 0, 'artist_hotness'] = mean_artist_hotness
print (data)

IndexingError: (0 True 1 False 2 False 3 False Name: artist_hotness, dtype: bool, 'artist_hotness')

Another solution is DataFrame.replace with specifying columns:

data=data.replace({'artist_hotness': {0: mean_artist_hotness}}) 
print (data)
    aa  artist_hotness
0  0.0             2.0
1  1.0             1.0
2  5.0             5.0
3  NaN             NaN

Or if need replace all 0 values in all columns:

import pandas as pd
import numpy as np

data = pd.DataFrame({'artist_hotness': [0,1,5,np.nan], 'aa': [0,1,5,np.nan]})
print (data)
    aa  artist_hotness
0  0.0             0.0
1  1.0             1.0
2  5.0             5.0
3  NaN             NaN

mean_artist_hotness = data['artist_hotness'].mean(skipna=True)
print (mean_artist_hotness)
2.0

data=data.replace(0,mean_artist_hotness) 
print (data)
    aa  artist_hotness
0  2.0             2.0
1  1.0             1.0
2  5.0             5.0
3  NaN             NaN

If need replace NaN in all columns use DataFrame.fillna:

data=data.fillna(mean_artist_hotness) 
print (data)
    aa  artist_hotness
0  0.0             0.0
1  1.0             1.0
2  5.0             5.0
3  2.0             2.0

But if only in some columns use Series.fillna:

data['artist_hotness'] = data.artist_hotness.fillna(mean_artist_hotness) 
print (data)
    aa  artist_hotness
0  0.0             0.0
1  1.0             1.0
2  5.0             5.0
3  NaN             2.0

answered Oct 20 '22 20:10

jezrael

Found these very useful, although mask is really slow (not sure why).

I did this:

df.loc[ df['artist_hotness'] == 0 | np.isnan(df['artist_hotness']), 'artist_hotness' ] = df['artist_hotness'].median()