Scikit-learn Preprocessing 预处理

2020-06-27 原文

本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法，主要包括标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。内容比较简单，仅供参考！

首先来回顾一下下面要用到的基本知识。

一、知识回顾

均值公式：

x ¯ = 1 n \sum i = 1 n x i

方差公式：

s 2 = 1 n \sum i = 1 n (x i - x ¯) 2

0-范数，向量中非零元素的个数。

1-范数：

| | X | | = \sum i = 1 n | x i |

2-范数：

| | X | | 2 = (\sum i = 1 n x 2 i) 1 2

p-范数的计算公式：

| | X | | p = (| x 1 | p + | x 2 | p + . . . + | x n | p) 1 p

数据标准化：当单个特征的样本取值相差甚大或明显不遵从高斯正态分布时，标准化表现的效果较差。实际操作中，经常忽略特征数据的分布形状，移除每个特征均值，划分离散特征的标准差，从而等级化，进而实现数据中心化。

二、标准化(Standardization)，或者去除均值和方差进行缩放

公式为：(X-X_mean)/X_std 计算时对每个属性/每列分别进行.

将数据按其属性(按列进行)减去其均值，然后除以其方差。最后得到的结果是，对每个属性/每列来说所有数据都聚集在0附近，方差值为1。

首先说明下sklearn中preprocessing库里面的scale函数使用方法：

sklearn.preprocessing.scale(X,axis=0,with_mean=True,with_std=True,copy=True)

根据参数的不同，可以沿任意轴标准化数据集。

参数解释：

X：数组或者矩阵
axis：int类型，初始值为0，axis用来计算均值 means 和标准方差 standard deviations. 如果是0，则单独的标准化每个特征（列），如果是1，则标准化每个观测样本（行）。
with_mean: boolean类型，默认为True，表示将数据均值规范到0
with_std: boolean类型，默认为True，表示将数据方差规范到1

一个简单的例子

假设现在我构造一个数据集X，然后想要将其标准化。下面使用不同的方法来标准化X：

方法一：使用sklearn.preprocessing.scale()函数

方法说明：

X.mean(axis=0)用来计算数据X每个特征的均值；
X.std(axis=0)用来计算数据X每个特征的方差；
preprocessing.scale(X)直接标准化数据X。

将代码整理到一个文件中：

from sklearn import preprocessing 
import numpy as np
X = np.array([[ 1.,-1.,2.],[ 2.,0.,0.],[ 0.,1.,-1.]])
# calculate mean
X_mean = X.mean(axis=0)
# calculate variance 
X_std = X.std(axis=0)
# standardize X
X1 = (X-X_mean)/X_std
# use function preprocessing.scale to standardize X X_scale = preprocessing.scale(X)

最后X_scale的值和X1的值是一样的，前面是单独的使用数学公式来计算，主要是为了形成一个对比，能够更好的理解scale()方法。

方法2：sklearn.preprocessing.StandardScaler类

该方法也可以对数据X进行标准化处理，实例如下：

from sklearn import preprocessing 
import numpy as np
X = np.array([[ 1.,-1.]])
scaler = preprocessing.StandardScaler()
X_scaled = scaler.fit_transform(X)

这两个方法得到最后的结果都是一样的。

三、将特征的取值缩小到一个范围（如0到1）

除了上述介绍的方法之外，另一种常用的方法是将属性缩放到一个指定的最大值和最小值(通常是1-0)之间，这可以通过preprocessing.MinMaxScaler类来实现。

使用这种方法的目的包括：

1、对于方差非常小的属性可以增强其稳定性；
2、维持稀疏矩阵中为0的条目。

下面将数据缩至0-1之间，采用MinMaxScaler函数

from sklearn import preprocessing 
import numpy as np
X = np.array([[ 1.,-1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_minMax = min_max_scaler.fit_transform(X)

最后输出：

array([[ 0.5,1. ],[ 1.,0.5,0.33333333],0. ]])

测试用例：

>>> X_test = np.array([[ -3.,4.]])
>>> X_test_minmax = min_max_scaler.transform(X_test)
>>> X_test_minmax
array([[-1.5,1.66666667]])

注意：这些变换都是对列进行处理。

当然，在构造类对象的时候也可以直接指定最大最小值的范围：feature_range=(min,max)，此时应用的公式变为：

X_std=(X-X.min(axis=0))/(X.max(axis=0)-X.min(axis=0))
X_minmax=X_std/(X.max(axis=0)-X.min(axis=0))+X.min(axis=0))

四、正则化(normalization)

正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1)，如果要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。

该方法是文本分类和聚类分析中经常使用的向量空间模型（Vector Space Model)的基础.

normalization主要思想是对每个样本计算其p-范数，然后对该样本中每个元素除以该范数，这样处理的结果是使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。

方法1：使用sklearn.preprocessing.normalize()函数

>>> X = [[ 1.,-1.,2.],...      [ 2.,0.,0.],...      [ 0.,1.,-1.]]
>>> X_normalized = preprocessing.normalize(X,norm='l2')
>>> X_normalized                                      
array([[ 0.40...,-0.40...,0.81...],[ 1.  ...,0.  ...,0.  ...],[ 0.  ...,0.70...,-0.70...]])

方法2：sklearn.preprocessing.StandardScaler类

>>> normalizer = preprocessing.normalizer().fit(X)  # fit does nothing
>>> normalizer
normalizer(copy=True,norm='l2')

然后使用正则化实例来转换样本向量：

>>> normalizer.transform(X)                            
array([[ 0.40...,-0.70...]])
>>> normalizer.transform([[-1.,0.]])             
array([[-0.70...,0.  ...]])

两种方法都可以，效果是一样的。

五、二值化(Binarization)

特征的二值化主要是为了将数据特征转变成boolean变量。在sklearn中，sklearn.preprocessing.Binarizer函数可以实现这一功能。实例如下：

>>> X = [[ 1.,-1.]]
>>> binarizer = preprocessing.Binarizer().fit(X)  # fit does nothing
>>> binarizer
Binarizer(copy=True,threshold=0.0)
>>> binarizer.transform(X)
array([[ 1.,1.],[ 1.,[ 0.,0.]])

Binarizer函数也可以设定一个阈值，结果数据值大于阈值的为1，小于阈值的为0，实例代码如下：

>>> binarizer = preprocessing.Binarizer(threshold=1.1)
>>> binarizer.transform(X)
array([[ 0.,1.],0.]])

六、缺失值处理

由于不同的原因，许多现实中的数据集都包含有缺失值，要么是空白的，要么使用NaNs或者其它的符号替代。这些数据无法直接使用scikit-learn分类器直接训练，所以需要进行处理。幸运地是，sklearn中的Imputer类提供了一些基本的方法来处理缺失值，如使用均值、中位值或者缺失值所在列中频繁出现的值来替换。

下面是使用均值来处理的实例：

>>> import numpy as np
>>> from sklearn.preprocessing import Imputer
>>> imp = Imputer(missing_values='NaN',strategy='mean',axis=0)
>>> imp.fit([[1,2],[np.nan,3],[7,6]])
Imputer(axis=0,copy=True,missing_values='NaN',verbose=0)
>>> X = [[np.nan,[6,np.nan],6]]
>>> print(imp.transform(X))                           
[[ 4. 2. ] [ 6. 3.666...] [ 7. 6. ]]

Imputer类同样支持稀疏矩阵：

>>> import scipy.sparse as sp
>>> X = sp.csc_matrix([[1,[0,6]])
>>> imp = Imputer(missing_values=0,axis=0)
>>> imp.fit(X)
Imputer(axis=0,missing_values=0,verbose=0)
>>> X_test = sp.csc_matrix([[0,0],6]])
>>> print(imp.transform(X_test))                      
[[ 4. 2. ] [ 6. 3.666...] [ 7. 6. ]]

本文讲解的比较接单，如果对这些不是很理解的话，请到scikit-learn的官网中查看英文版本：preprocessing.

References

Scikit-learn preprocessing.

本栏目机器学习持续更新中，欢迎来访：Dream_Angel_Z 博客
新浪微博： @拾毅者个人博客： D.W’s Diary

Scikit-learn Preprocessing 预处理的更多相关文章

SpringBoot项目使用 axis 调用webservice接口的实践记录

这篇文章主要介绍了SpringBoot项目使用 axis 调用webservice接口,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
分类报告中少数类别的准确度、召回率和F1分数均为零

我在使用SkLearn包中的SVM和MLP分类器时出错。使用zero_division参数控制此行为_warn_prf用于拆分数据集的代码SVM分类器代码MLP分类器代码两个分类器的错误相同
用sklearn拟合多维数据的线性回归

我正在尝试使用时间序列数据上的sklearn拟合线性回归。唯一的问题是，据我所知，数据不符合通常的时间序列格式。下面是一个示例：我很抱歉，如果这有点难读，但我的想法是，每个列表都代表了当时的一些上下文，其中的每个列表。这是可以的，除非我有多个上下文，但我希望它们都在同一个模型上训练。顺便说一句，当运行上面的代码时，我会得到逻辑上的错误：因为，sklearn需要以下格式的数据：
计算集合模型估计误差的标准偏差

最后，我想确定每天超出置信区间的极端结果。但我很难计算装袋回归器中每个模型的残差的逐点标准差。我的示例代码如下：；我在网上找到了这个方法但我不确定x.predict部分使用什么，因为我有4个以上的功能。
basic_string:：resize在GCP上部署自定义Sklearn模型时出错

我想使用预先构建的scikit学习容器在GCP上部署一个成功的定制培训工作。
sklearn的准确度分数未返回值

我有一个数据集，并使用pd.get_dummies对目标列进行了热编码。然后我使用sklearn的train_test_split函数来创建训练、测试和验证集。然后使用standardScalar（）规范化训练集（特性）。我已经将特征和目标的训练集拟合到逻辑回归模型中。我现在正在尝试计算训练、验证和测试集的准确度分数，但我没有运气。
centos-6.4源码安装scikit-learn

源码安装scikit-learn在linux下安装scikit-learn时遇到各种问题，特别是scipy这个包。另外，还有一个问题就是版本的问题，所以这里列出了与python-2.7.9对应可以使用的版本。python:2.7.9setuptools:1.4.2pip:1.3.1numpy:1.11.2scipy:0.11.1scikit-learn:0.18.1panda:0.18.1安装软件准备安装python-2.7.9这里不再详细描述python-2.7.9的安装过程，可以查看先关文章。
[机器学习]谈谈正则化

同时1范数是0范数的最优凸近似minimizeL2范数就是指向量各元素的平方和然后求平方根。
L1、L2正则化的区别

简单读了一些文章，总结一下L1和L2正则化的区别吧，似乎是非常容易被问到的一个问题。L1,L2正则化机器学习中，损失函数后面一般会加上一个额外项，常用的是l1-norm和l2-norm，即l1范数和l2范数。可以看作是损失函数的惩罚项。正则化项可以取不同的形式。L0范数是指正则化项是参数矩阵W中非0元素的个数，也就是说希望W的大部分元素都是0，W是稀疏的。L1范数正则化项是向量中各个元素的绝对值之和。L2又称Ridge，也称岭回归。
过拟合、正则化、泛化、归一化

为了解释正则化，我准备引入一个公式来阐述正则化的概念。如何防止过拟合的？应当指出并非训练的次数越多越能得到正确的输入输出映射关系。当然还有max归一化等其他方法进行归一化处理。

随机推荐

法国电话号码的正则表达式

我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的：要么：这是我实施的但是错了……
正则表达式 – perl分裂奇怪的行为

PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.
正则表达式 – 正则表达式大于和小于

我想匹配以下任何一个字符：或=或=.这个似乎不起作用：[/]试试这个：它匹配可选地后跟=,或者只是=自身.
如何使用正则表达式用空格替换字符之间的短划线

我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分？
正则表达式 – /bb | [^ b] {2} /它是如何工作的？

有人可以解释一下吗？我在t-shirt上看到了这个：它似乎在说：“成为或不成为”怎么样？我好像没找到’e’？
正则表达式 – 在Scala中验证电子邮件一行

在我的代码中添加简单的电子邮件验证,我创建了以下函数：这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp
正则表达式对小字符串的暴力

在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快？不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗？
正则表达式 – 为什么`stoutest`不是有效的正则表达式？

isthedelimiter,thenthematch-only-onceruleof?PATTERN?
正则表达式 – 替换..与.在R

我怎样才能替换..我尝试过类似的东西：但它并不像我希望的那样有效.尝试添加fixed=T.
正则表达式 – 如何在字符串中的特定位置添加字符？

我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思？如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.