slearn缺失值处理器之Imputer详析

2023-02-11 原文

class sklearn.preprocessing.Imputer(missing_values=’NaN’, strategy=’mean’, axis=0, verbose=0, copy=True)

参数：

missing_values: integer or “NaN”, optional (default=”NaN”)
strategy : string, optional (default=”mean”)
- The imputation strategy.
  - If “mean”, then replace missing values using the mean along the axis. 使用平均值代替
  - If “median”, then replace missing values using the median along the axis.使用中值代替
  - If “most_frequent”, then replace missing using the most frequent value along the axis.使用众数代替，也就是出现次数最多的数
axis: 默认为 axis=0
- axis = 0, 按列处理
- aixs =1 , 按行处理

说实话，我还是没太弄明白aixs的具体含义，总感觉在不同的函数中有不同的含义。。还是使用前查找一下官方文档吧，毕竟大多数时候处理的都是2维数组,文档中的参数很容易理解。

注意：

Imputer 只接受DataFrame类型
Dataframe 中必须全部为数值属性

所以在处理的时候注意，要进行适当处理

数值属性的列较少，可以将数值属性的列取出来单独取出来

import pandas as pd
import numpy as np

df=pd.DataFrame([["XXL", 8, "black", "class 1", 22],
["L", np.nan, "gray", "class 2", 20],
["XL", 10, "blue", "class 2", 19],
["M", np.nan, "orange", "class 1", 17],
["M", 11, "green", "class 3", np.nan],
["M", 7, "red", "class 1", 22]])

df.columns=["size", "price", "color", "class", "boh"]
print(df)
# out:
'''
  size  price   color    class   boh
0  XXL    8.0   black  class 1  22.0
1    L    NaN    gray  class 2  20.0
2   XL   10.0    blue  class 2  19.0
3    M    NaN  orange  class 1  17.0
4    M   11.0   green  class 3   NaN
5    M    7.0     red  class 1  22.0
'''
from sklearn.preprocessing import Imputer
# 1. 创建Imputer器
imp =Imputer(missing_values="NaN", strategy="mean",axis=0 )
# 先只将处理price列的数据， 注意使用的是   df[['price']]   这样返回的是一个DataFrame类型的数据！！！！
# 2. 使用fit_transform()函数即可完成缺失值填充了
df["price"]=imp.fit_transform(df[["price"]])
df
# out:
'''
   size	price	color	class	boh
0	XXL	8.0	black	class 1	22.0
1	L	9.0	gray	class 2	20.0
2	XL	10.0	blue	class 2	19.0
3	M	9.0	orange	class 1	17.0
4	M	11.0	green	class 3	NaN
5	M	7.0	red	class 1	22.0
'''

# 直接处理price和boh两列
df[['price', 'boh']] = imp.fit_transform(df[['price', 'boh']])
df
# out:
'''
size	price	color	class	boh
0	XXL	8.0	black	class 1	22.0
1	L	9.0	gray	class 2	20.0
2	XL	10.0	blue	class 2	19.0
3	M	9.0	orange	class 1	17.0
4	M	11.0	green	class 3	20.0
5	M	7.0	red	class 1	22.0
'''

数值属性的列较多，相反文本或分类属性（text and category attribute)较少，可以先删除文本属性，处理完以后再合并

from sklearn.preprocessing import Imputer
# 1.创建Iimputer
imputer = Imputer(strategy="median")
# 只有一个文本属性，故先去掉
housing_num = housing.drop("ocean_proximity", axis=1)
# 2. 使用fit_transform函数
X = imputer.fit_transform(housing_num)
# 返回的是一个numpyarray，要转化为DataFrame
housing_tr = pd.DataFrame(X, columns=housing_num.columns)

# 将文本属性值添加
housing_tr['ocean_proximity'] = housing["ocean_proximity"]

housing_tr[:2]
# out：
'''
    longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income
0	-121.89 	37.29     	38.0  	              1568.0	    351.0	     710.0	     339.0	    2.7042
1	-121.93	    37.05   	14.0	              679.0	        108.0	     306.0   	113.0	   6.4214
'''

补充：sklearn中的Imputer模块改动

在sklearn的0.22以上版本的sklearn去除了Imputer类，我们可以使用SimpleImputer类代替。或者降级回版本sklearn 0.19

from sklearn.impute import SimpleImputer
#有如下的一些参数
sklearn.impute.SimpleImputer(
		missing_values=nan,
		strategy='mean',
		fill_value=None,
		verbose=0,
		copy=True,
		add_indicator=False
)[source]

imputer = SimpleImputer(missing_values=NA, strategy = "mean")

用上面那个代码就可以实现imputer的功能。其他的参数详解如下，具体的话大家去查阅sklearn库的说明。

misssing_values: number,string,np.nan(default) or None
缺失值的占位符，所有出现的占位符都将被计算
strategy: string,default=‘mean’ 计算并替换的策略：
"mean，使用该列的平均值替换缺失值。仅用于数值数据； “median”，使用该列的中位数替换缺失值。仅用于数值数据；
“most_frequent”，使用每个列中最常见的值替换缺失值。可用于非数值数据；
“constant”，用fill_value替换缺失值。可用于非数值数据。
fill_value: string or numerical value,default=None
当strategy为"constant"，使用fil_value替换missing_values。如果是default，使用0替换数值数据，使用"missing_value"替换字符串或对象数据类型
verbose: integer,default=0
copy: boolean,default=True
True: 将创建X的副本；False: 只要有可能，就会原地替换。注意，一下情况即使copy=False，也会创建新的副本：
add_indicator: boolean,default=False
True，则MissingIndicator将叠加到输入器转换的输出上。这样即使进行了imputation归算，也同样会让预测估算器描述缺失值。如果某个特征在fit/train时没有缺失值，那么即使在transform/tes时有缺失值，该特征也不会出现在缺失的指示器上。

随着版本的更新，Imputer的输入方式也发生了变化，一开始的输入方式为

from sklearn.preprocessing import Imputer
imputer = Imputer(strategy='median')

现在需要对上面输入进行更新，输入变为

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy="median")

简单使用：

from sklearn.impute import SimpleImputer
import numpy as np
 
def im():
    """
    缺失值处理
    :return: None
    """
    im1 = SimpleImputer(missing_values=np.nan, strategy='mean')
    data = im1.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
    print(data)
    return None
 
if __name__ == "__main__":
    im()

总结

到此这篇关于slearn缺失值处理器之Imputer的文章就介绍到这了,更多相关slearn缺失值处理器Imputer内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

slearn缺失值处理器之Imputer详析的更多相关文章

python sklearn与pandas实现缺失值数据预处理流程详解

对于缺失值的处理，主要配合使用sklearn.impute中的SimpleImputer类、pandas、numpy。其中由于pandas对于数据探索、分析和探查的支持较为良好，因此围绕pandas的缺失值处理较为常用
pandas如何统计某一列或某一行的缺失值数目

这篇文章主要介绍了pandas如何统计某一列或某一行的缺失值数目，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Python3 DataFrame缺失值的处理方法

这篇文章主要介绍了Python3 DataFrame缺失值的处理,包括缺失值的判断缺失值数据的过滤及缺失值数据的填充，本文通过示例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
Python处理缺失值的8种不同方法实例

缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断,下面这篇文章主要给大家介绍了关于Python处理缺失值的8种不同方法,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
Python查询缺失值的4种方法总结

缺失值可能是数据科学中最不受欢迎的值，然而，它们总是在身边。忽略缺失值也是不合理的，因此我们需要找到有效且适当地处理它们的方法。本文总结了四个Python查询缺失值的方法，需要的可以参考一下
Python 数据清洗删除缺失值替换缺失值详情

这篇文章主要介绍了Python 数据清洗删除缺失值替换缺失值详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，需要的小伙伴可以参考一下
python笔记之使用fillna()填充缺失值

这篇文章主要介绍了python笔记之使用fillna()填充缺失值方式，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Python pandas处理缺失值方法详解(dropna、drop、fillna)

缺失数据会在很多数据分析应用中出现,pandas的目标之一就是尽可能无痛地处理缺失值,下面这篇文章主要给大家介绍了关于Python pandas处理缺失值方法的相关资料，处理方法分别是dropna、drop、fillna,需要的朋友可以参考下
pandas数据清洗(缺失值和重复值的处理)

这篇文章主要介绍了pandas数据清洗(缺失值和重复值的处理)，pandas对大数据有很多便捷的清洗用法，尤其针对缺失值和重复值，详细介绍感兴趣的小伙伴可以参考下面文章内容
slearn缺失值处理器之Imputer详析

这篇文章主要给大家介绍了关于slearn缺失值处理器之Imputer的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教