西瓜书习题11.1 编程实现Relief算法特征选择、正则化总结

2020-07-07 原文

Relief算法的数据以及代码：https://github.com/qdbszsj/Relief

西瓜书第十一章，主要讲了一下特征选择的方法，通常来说，有很多冗余特征，如果能把这些特征从我们的数据集中筛选出去，那么可以极大地提高我们的程序运行效率，当然有的时候我们还需要人为保留或者创造一些冗余特征，当且仅当这些冗余特征恰好对应了完成任务所需要的“中间概念”。比如要求一个立方体的体积时，输入数据只有长宽高，如果能人为创造一个“底面积”或者“侧面积”这样的冗余特征，那么更容易求解，这个冗余特征要分情况来确定。

这里我们不主要探讨冗余特征，而是多说一些如何筛选特征，也就是搜索一个特征子集，让这个子集训练出来的模型最棒，这个问题显然是NP的，一切搜索方法都有局限性，那么目前我们常用的特征选择方法有三种：过滤式filter、包裹式wrapper、嵌入式embedding。

过滤式选择:

先对数据集进行特征选择，再训练学习器，特征选择与后续学习无关，我这个Relief算法就是一种经典的过滤式选择，Relief是先把每个个体的最近邻求出来，这里有几个分类结果就要求几个对应的近邻，分为猜中近邻（near-hit）和猜错近邻（near-miss），然后根据式11.3求一下各个属性的值就行，分量值越大，对应属性的能力就越强。

包裹式选择：

直接把最终要使用的学习器的性能作为特征子集的评价准则，量身定做特征子集，这里就是固定好学习器，然后随机的选子集，哪个子集误差小就用哪个，著名的有LAW拉斯维加斯wrapper。

嵌入式选择：

说白了就是用L1正则化来求解目标函数，比较容易得到稀疏解，然后有的分量可能取值就为0了，于是这个分量对应的属性就相当于被筛掉了。

这里重点说一下正则化：

正则化是用来防止过拟合的工具，样本特征多，样本数量少，很容易陷入过拟合，这时候我们加一个正则化项，希望求到一个尽量平滑、权值和较小的解，这里通常有L2、L1、L0正则化，L2范数就是求w的欧式距离，L1对应曼哈顿距离，L0对应切比雪夫距离，这些距离都是类闵可夫斯基距离，就是各个分量差的p次方之和再开p次根，在二维空间里，如果距离为1，欧式距离可以理解为一个半径为1的圆，曼哈顿距离能画出一个旋转了45度的正方形，对角线长度是2，边长根2，切比雪夫就是一个边长为2的正方形，在三维空间里，若距离为1，L2就是半径为1的球，L1就是一个边长根2的正八面体，L0就是一个边长为2的立方体。于是L1和L0更容易在顶点处与误差项相交（L0比L1更容易），从而获得稀疏解，而L2更容易获得各个分量都很均衡的解。这里我们通常不用L0正则，因为L0正则是不连续的，没法求导，无法优化求解。（书P253页的图很棒）

Relief的代码：

这里我把西瓜数据集都处理成连续值了，因为要求最近邻，必须要把数据处理一下，离散值要处理成单独的一个属性或者是连续值。

import numpy as np
import pandas as pd
dataset=pd.read_csv('/home/parker/watermelonData/watermelon_3.csv',delimiter=",")
del dataset['编号']
print(dataset)
attributeMap={}
attributeMap['浅白']=0
attributeMap['青绿']=0.5
attributeMap['乌黑']=1
attributeMap['蜷缩']=0
attributeMap['稍蜷']=0.5
attributeMap['硬挺']=1
attributeMap['沉闷']=0
attributeMap['浊响']=0.5
attributeMap['清脆']=1
attributeMap['模糊']=0
attributeMap['稍糊']=0.5
attributeMap['清晰']=1
attributeMap['凹陷']=0
attributeMap['稍凹']=0.5
attributeMap['平坦']=1
attributeMap['硬滑']=0
attributeMap['软粘']=1
attributeMap['否']=0
attributeMap['是']=1
data=dataset.values


m,n=np.shape(data)
for i in range(m):
    for j in range(n):
        if data[i,j] in attributeMap:
            data[i,j]=attributeMap[data[i,j]]
        else: data[i,j]=round(data[i,j],3)

X=data[:,:-1]
y=data[:,-1]
m,n=np.shape(X)
# print(X,y)
near=np.zeros((m,2))#near[i,0] is nearHit,near[i,1] is nearMiss
# print(near)

def distance(x1,x2):
    return sum((x1-x2)**2)

for i in range(m):
    hitdistance=99999 #init as INF
    missdistance=99999
    for j in range(m):
        if j==i:continue
        curdistance=distance(X[i],X[j])
        if y[i]==y[j] and curdistance<hitdistance:
            hitdistance=curdistance
            near[i,0]=j
        if y[i]!=y[j] and curdistance<missdistance:
            missdistance=curdistance
            near[i,1]=j

#P250--(11.3)
relief=np.zeros(n)
for j in range(n):
    for i in range(m):
        relief[j]+=(X[i,j]-X[int(near[i,1]),j])**2-(X[i,0]),j])**2
print(relief)

结果我们发现纹理得分4.25，很关键，这一点跟ID3决策树的结果是一致的，然后脐部、色泽也很重要，GiniIndex决策树也把这两项作为树根了，含糖率重要性也很大，这也符合我们的认知，总之我们发现这个Relief算法还真不错。

西瓜书习题11.1 编程实现Relief算法特征选择、正则化总结的更多相关文章

canvas中普通动效与粒子动效的实现代码示例

canvas用于在网页上绘制图像、动画，可以将其理解为画布，在这个画布上构建想要的效果。本文详细的介绍了粒子特效，和普通动效进行对比，非常具有实用价值，需要的朋友可以参考下
H5混合开发app如何升级的方法

本篇文章主要介绍了H5混合开发app如何升级的方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
canvas学习和滤镜实现代码

这篇文章主要介绍了canvas学习和滤镜实现代码，利用 canvas，前端人员可以很轻松地、进行图像处理，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
localStorage的过期时间设置的方法详解

这篇文章主要介绍了localStorage的过期时间设置的方法详解的相关资料，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
详解HTML5 data-* 自定义属性

这篇文章主要介绍了详解HTML5 data-* 自定义属性的相关资料，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
HTML5的postMessage的使用手册

HTML5提出了一个新的用来跨域传值的方法，即postMessage，这篇文章主要介绍了HTML5的postMessage的使用手册的相关资料，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
教你使用Canvas处理图片的方法

本篇文章主要介绍了教你使用Canvas处理图片的方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
ios – Swift语言：如何调用SecRandomCopyBytes

从Objective-C,我可以这样做：在Swift中尝试这个时,我有以下内容：但我得到这个编译器错误：data.mutableBytes参数被拒绝,因为类型不匹配,但我无法弄清楚如何强制参数.解决方法这似乎有效：
使用Firebase iOS Swift将特定设备的通知推送到特定设备

我非常感谢PushNotifications的帮助.我的应用聊天,用户可以直接向对方发送短信.但是如果没有PushNotifications,它就没有多大意义.它全部设置在Firebase上.如何将推送通知从特定设备发送到特定设备？
ios – NSData to Data swift 3

如何将此代码转换为使用Swift3数据？

随机推荐

法国电话号码的正则表达式

我正在尝试实施一个正则表达式,允许我检查一个号码是否是一个有效的法国电话号码.一定是这样的：要么：这是我实施的但是错了……
正则表达式 – perl分裂奇怪的行为

PSperl是5.18.0问题是量词*允许零空间,你必须使用,这意味着1或更多.请注意,F和O之间的空间正好为零.
正则表达式 – 正则表达式大于和小于

我想匹配以下任何一个字符：或=或=.这个似乎不起作用：[/]试试这个：它匹配可选地后跟=,或者只是=自身.
如何使用正则表达式用空格替换字符之间的短划线

我想用正则表达式替换出现在带空格的字母之间的短划线.例如,用abcd替换ab-cd以下匹配字符–字符序列,但也替换字符[即ab-cd导致d,而不是abcd,因为我希望]我如何适应以上只能取代–部分？
正则表达式 – /bb | [^ b] {2} /它是如何工作的？

有人可以解释一下吗？我在t-shirt上看到了这个：它似乎在说：“成为或不成为”怎么样？我好像没找到’e’？
正则表达式 – 在Scala中验证电子邮件一行

在我的代码中添加简单的电子邮件验证,我创建了以下函数：这将传递像bob@testmymail.com这样的电子邮件和bobtestmymail.com之类的失败邮件,但是带有空格字符的邮件会漏掉,就像bob@testmymail也会返回true.我可能在这里很傻……当我测试你的正则表达式并且它正在捕捉简单的电子邮件时,我检查了你的代码并看到你正在使用findFirstIn.我相信这是你的问题.findFirstIn将跳转所有空格,直到它匹配字符串中任何位置的某个序列.我相信在你的情况下,最好使用unapp
正则表达式对小字符串的暴力

在测试小字符串时,使用正则表达式会带来性能上的好处,还是会强制它们更快？不会通过检查给定字符串的字符是否在指定范围内比使用正则表达式更快来强制它们吗？
正则表达式 – 为什么`stoutest`不是有效的正则表达式？

isthedelimiter,thenthematch-only-onceruleof?PATTERN?
正则表达式 – 替换..与.在R

我怎样才能替换..我尝试过类似的东西：但它并不像我希望的那样有效.尝试添加fixed=T.
正则表达式 – 如何在字符串中的特定位置添加字符？

我正在使用记事本,并希望使用正则表达式替换在字符串中的特定位置插入一个字符.例如,在每行的第6位插入一个逗号是什么意思？如果要在第六个字符后添加字符,请使用搜索和更换从技术上讲,这将用MatchGroup1替换每行的前6个字符,后跟逗号.

西瓜书 习题11.1 编程实现Relief算法 特征选择、正则化总结

随机推荐

西瓜书习题11.1 编程实现Relief算法特征选择、正则化总结