Spectral clustering谱聚类算法的实现代码

2023-05-27 原文

1.作者介绍

刘然，女，西安工程大学电子信息学院，2021级研究生
研究方向：图像处理
电子邮件：1654790996@qq.com

刘帅波，男，西安工程大学电子信息学院，2021级研究生，张宏伟人工智能课题组
研究方向：机器视觉与人工智能
电子邮件：1461004501@qq.com

2.关于谱聚类的介绍

2.1 谱聚类概述

谱聚类是从图论中演化出来的算法，它的主要思想是把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

2.2 无向权重图

对于一个图G，我们一般用点的集合V和边的集合E来描述。即为G(V,E)。其中V即为我们数据集里面所有的点(v1,v2,…vn)。对于V中的任意两个点，点vi和点vj，我们定义权重wij为二者之间的权重。由于是无向图，所以wij=wji。

2.3 邻接矩阵

邻接矩阵(Adjacency Matrix):是表示顶点之间相邻关系的矩阵。在如图2-1所示的权重图当中（假设各权重为1），其邻接矩阵可表示为图2-2所示。

在这里插入图片描述

2.4 相似矩阵

在谱聚类中，我们只有数据点的定义，并没有直接给出这个邻接矩阵，所以我们可以通过样本点距离度量的相似矩阵S来获得邻接矩阵W。

2.5 度矩阵

度矩阵是对角阵，对角上的元素为各个顶点的度。图2-1的度矩阵为图2-3所示。

在这里插入图片描述

2.6 拉普拉斯矩阵

拉普拉斯矩阵L=D-W，其中D为度矩阵，W为邻接矩阵。图2-1的拉普拉斯矩阵为图2-4所示。

在这里插入图片描述

用拉普拉斯矩阵求解特征值，通过确定特征值（特征值要遵循从小到大的排列方式）的个数来确定对应特征向量的个数，从而实现降维，然后再用kmeans将特征向量进行聚类。

2.7 K-Means

K-Means是聚类算法中的最常用的一种，算法最大的特点是简单，好理解，运算速度快，但是只能应用于连续型的数据，并且一定要在聚类前需要手工指定要分成几类。
下面，我们描述一下K-means算法的过程，为了尽量不用数学符号，所以描述的不是很严谨，大概就是这个意思，“物以类聚、人以群分”：
1.首先输入k的值，即我们希望将数据集经过聚类得到k个分组。
2.从数据集中随机选择k个数据点作为初始大哥（质心，Centroid）
3.对集合中每一个小弟，计算与每一个大哥的距离（距离的含义后面会讲），离哪个大哥距离近，就跟定哪个大哥。
4.这时每一个大哥手下都聚集了一票小弟，这时候召开人民代表大会，每一群选出新的大哥（其实是通过算法选出新的质心）。
5.如果新大哥和老大哥之间的距离小于某一个设置的阈值（表示重新计算的质心的位置变化不大，趋于稳定，或者说收敛），可以认为我们进行的聚类已经达到期望的结果，算法终止。
6.如果新大哥和老大哥距离变化很大，需要迭代3~5步骤。

3.Spectral clustering（谱聚类）算法实现

3.1 数据集

本实验中使用到的数据集均由sklearn.datasets中提供的方法生成，本实验中用到了make_circles，make_moons，make_blobs等函数。make_circles生成数据集，形成一个二维的大圆，包含一个小圆，如图3-1所示；make_moons生成数据集，形成两个弯月，如图3-2所示；make_blobs为聚类生成符合正态分布的数据集，如图3-3所示。

在这里插入图片描述

3.2 导入所需要的包

#导入需要的包
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import make_moons#生成数据集，形成两个弯月。
from sklearn.datasets import make_circles#生成数据集，形成一个二维的大圆，包含一个小圆
from sklearn.datasets import make_blobs#为聚类生成符合正态分布的数据集，产生一个数据集和相应的标签
import matplotlib.pyplot as plt

3.3 获取特征值和特征向量

def get_eigen(L, num_clusters):#获取特征
    eigenvalues, eigenvectors = np.linalg.eigh(L)#获取特征值  特征向量
    best_eigenvalues = np.argsort(eigenvalues)[0:num_clusters]#argsort函数返回的是数组值从小到大的索引值
    U = np.zeros((L.shape[0], num_clusters))
    U = eigenvectors[:, best_eigenvalues]#将这些特征取出 构成新矩阵
    return U

3.4 利用K-Means聚类

#K-Means聚类
def cluster(data, num_clusters):
    data = np.array(data)
    W = affinity_matrix(data)
    D = getD(W)
    L = getL(D, W)
    eigenvectors = get_eigen(L, num_clusters)
    clf = KMeans(n_clusters=num_clusters)
    s = clf.fit(eigenvectors)  # 聚类
    label = s.labels_
    return label

3.5 完整代码

#导入需要的包
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import make_moons#生成数据集，形成两个弯月。
from sklearn.datasets import make_circles#生成数据集，形成一个二维的大圆，包含一个小圆
from sklearn.datasets import make_blobs#为聚类生成符合正态分布的数据集，产生一个数据集和相应的标签
import matplotlib.pyplot as plt

#定义高斯核函数
def kernel(x1, x2, sigma_sq=0.05):
    return np.exp(-(np.linalg.norm(x1 - x2) ** 2) / (2 * sigma_sq ** 2))

#定义相似度矩阵
def affinity_matrix(X):
    A = np.zeros((len(X), len(X)))#零矩阵
    for i in range(len(X) - 1):#长度为len(x) 但是从0开始
        for j in range(i   1, len(X)):#从1开始，到len(x) 是方阵 为啥下角标取值的初始值不同？？？
            A[i, j] = A[j, i] = kernel(X[i], X[j])
    return A#通过高斯核的计算 给矩阵赋予新值    10*10

# 计算度矩阵
def getD(A):
    D = np.zeros(A.shape)
    for i in range(A.shape[0]):
        D[i, i] = np.sum(A[i, :])
    return D

#计算拉普拉斯矩阵
def getL(D, A):
    L = D - A
    return L


def get_eigen(L, num_clusters):#获取特征
    eigenvalues, eigenvectors = np.linalg.eigh(L)#获取特征值  特征向量
    best_eigenvalues = np.argsort(eigenvalues)[0:num_clusters]#argsort函数返回的是数组值从小到大的索引值
    U = np.zeros((L.shape[0], num_clusters))
    U = eigenvectors[:, best_eigenvalues]#将这些特征取出 构成新矩阵
    return U

#K-Means聚类
def cluster(data, num_clusters):
    data = np.array(data)
    W = affinity_matrix(data)
    D = getD(W)
    L = getL(D, W)
    eigenvectors = get_eigen(L, num_clusters)
    clf = KMeans(n_clusters=num_clusters)
    s = clf.fit(eigenvectors)  # 聚类
    label = s.labels_
    return label


def plotRes(data, clusterResult, clusterNum):
    """
    结果可似化
    : data:  样本集
    : clusterResult: 聚类结果
    : clusterNum: 聚类个数
    :return:
    n = len(data)
    scatterColors = ['black', 'blue', 'red', 'yellow', 'green', 'purple', 'orange']
    for i in range(clusterNum):
        color = scatterColors[i % len(scatterColors)]
        x1 = []
        y1 = []
        for j in range(n):
            if clusterResult[j] == i:
                x1.append(data[j, 0])
                y1.append(data[j, 1])
        plt.scatter(x1, y1, c=color, marker=' ')


if __name__ == '__main__':
# # #月牙形数据集,sigma=0.1
# #     # cluster_num = 2
# #     # data, target = make_moons()
# #     # label = cluster(data, cluster_num)
# #     # print(label)
# #     # plotRes(data, label, cluster_num)
# #
#     # 圆形数据集,sigma=0.05
    cluster_num = 2
    data, target = make_circles(n_samples=1000, shuffle=True, noise=0.05, factor=0.5)
    label = cluster(data, cluster_num)
    print(label)
    plotRes(data, label, cluster_num)
# #    #  # 正态数据集
# #    # # n_samples是待生成的样本的总数。
# #    #  # n_features是每个样本的特征数。
# #    #  # centers表示类别数。
# #    #  # cluster_std表示每个类别的方差，例如我们希望生成2类数据，其中一类比另一类具有更大的方差，可以将cluster_std设置为[1.0, 3.0]。
# #    #  cluster_num = 2
# #    #  data, target = make_blobs(n_samples=1500, n_features=2, centers=4, random_state=24)
# #    #  label = cluster(data, cluster_num)
# #    #  print(label)
# #    #  plt.subplot(121)
# #    #  plotRes(data, target, cluster_num)
# #    #  plt.subplot(122)
# #    #  plotRes(data, label, cluster_num)
plt.show()

4.参考

1.<谱聚类（spectral clustering）原理总结 - 刘建平Pinard - 博客园
2.参考博客1
3.参考博客2
4.参考博客3

到此这篇关于Spectral clustering谱聚类算法的实现的文章就介绍到这了,更多相关Spectral clustering谱聚类算法内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

Spectral clustering谱聚类算法的实现代码的更多相关文章

用Swift实现MD5算法&引入第三方类库MBProgressHUD

之前项目里面是用objc写的MD5加密算法，最近在用swift重写以前的项目，遇到了这个问题。顺带解决掉的还有如何引入第三方的类库，例如MBProgressHUD等一些特别好的控件解决的方法其实是用objc和swift混合编程的方法，利用Bridging-header文件。你可以简单的理解为在一个用swift语言开发的工程中，引入objective-c文件是需要做的一个串联文件，好比架设了一个桥，让swift中也可以调用objective-c的类库和frame等等。
swift排序算法和数据结构

vararrayNumber:[Int]=[2,4,216)">6,216)">7,216)">3,216)">8,216)">1]//冒泡排序funcmaopao->[Int]{forvari=0;i
swift - 函数指针的应用 - 避免重复算法

=nil;})}privatefuncsearch(selector:(Employee->Bool))->[Employee]{varresults=[Employee]();foreinemployees{if(selector(e)){results.append(e);}}returnresults;}}
如何用 Swift 实现 A* 寻路算法

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
swift算法实践1

在通常的表达式中，二元运算符总是置于与之相关的两个运算对象之间，所以，这种表示法也称为中缀表示。波兰逻辑学家J.Lukasiewicz于1929年提出了另一种表示表达式的方法。逆波兰表达式，它的语法规定，表达式必须以逆波兰表达式的方式给出。如果，该字符优先关系高于此运算符栈顶的运算符，则将该运算符入栈。倘若不是的话，则将栈顶的运算符从栈中弹出，直到栈顶运算符的优先级低于当前运算符，将该字符入栈。
swift算法实践2

字符串hash算法Time33在效率和随机性两方面上俱佳。对于一个Hash函数，评价其优劣的标准应为随机性，即对任意一组标本，进入Hash表每一个单元之概率的平均程度，因为这个概率越平均，数据在表中的分布就越平均，表的空间利用率就越高。Times33的算法很简单，就是不断的乘33，见下面算法原型。
swift算法实践3)-KMP算法字符串匹配

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
swift算法实践4)-trie自动机

１、trie自动机是识别字符串的确定性有向无环自动机２、图示３、构造代码F包括了状态q所对应的P中的字符串
Swift 算法实战之路一

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
Swift 算法实战之路二

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教