python独学メモ 前処理編 欠損値

python独学メモです。前処理編である欠損値の確認方法と、もしあった場合の処理の仕方をメモします。

欠損値の確認

欠損値の確認は、以下を入力

display(df.isnull().sum())

欠損値の処理の仕方

①欠損している行が少ない場合、行を削除します。

入力
_df = df .dropna(subset = [‘消したい行のある列名’])

②欠損値している行が多い場合、平均値を入れる

入力
average1 = _df [ ‘平均値を出す列名’].mean()
_df = _df.fillna((‘年齢’: average1))

ラベル値で欠損値がかなり多い場合、欠損とわかるダミーデータを入れ機械学習対象に入れる

入力
_df = _df.replace({‘処理したい列名’ : {np.nan: ‘N’}})

コメントする

メールアドレスが公開されることはありません。 が付いている欄は必須項目です