python独学メモです。前処理編である欠損値の確認方法と、もしあった場合の処理の仕方をメモします。
欠損値の確認
欠損値の確認は、以下を入力
display(df.isnull().sum())
欠損値の処理の仕方
①欠損している行が少ない場合、行を削除します。
入力
_df = df .dropna(subset = [‘消したい行のある列名’])
②欠損値している行が多い場合、平均値を入れる
入力
average1 = _df [ ‘平均値を出す列名’].mean()
_df = _df.fillna((‘年齢’: average1))
③ラベル値で欠損値がかなり多い場合、欠損とわかるダミーデータを入れ機械学習対象に入れる
入力
_df = _df.replace({‘処理したい列名’ : {np.nan: ‘N’}})