数据清洗就是处理缺失数据以及清除无意义的信息,如删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与分析主题无关的数据,处理缺失值和异常值等
1.重复值处理
先用Pandas 的 duplicated方法:返回一个布尔的Series,显示是否有重复行,没有的为False
有重复行的从重复的第二行显示为True
再用DataFrame的drop_duplicates处理
duplicated(subset=None,keep="first")
subset 要识别重复的列标签下标 默认所有列标签
keep=first 第一次出现的保留,其他重复的干掉
keep=last 最后一次出现的保留
keep=False 重复的都干掉
duplicated和drop_duplicates如果都没设参数,默认判断全部列
2.缺失值处理:
缺失的数据会引起偏估计
缺失值的处理包括两步:缺失值的识别和处理
识别:
Panda上使用浮点值NaN表示缺失数据,使用 .isnull和.notnull判断是否缺失
处理:
数据补齐,删除对应行,不处理
dropna() 去除数据有空的行,参数how="all"表示整行的数据都为空才删除;axis=1是删除列
fillna() 用其他数值替代NaN