如何利用python实现kmeans聚类

2023-05-02 原文

一、先上手撸代码！

1、首先是导入所需要的库和数据

import pandas as pd
import numpy as np
import random
import math
import matplotlib.pyplot as plt
 
# 这两行代码解决 plt 中文显示的问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
 
df = pd.read_excel('13信科学生成绩.xlsx')
data = np.array(df)
 
df.head(10)

先给大伙们看看数据集长啥样：

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_3,color_FFFFFF,t_70,g_se,x_16

用matplotlib简单的可视化一下初始数据：

# 输入数据
x = data.T[0]
y = data.T[1]
 
plt.scatter(x, y, s=50, c='r')  # 画散点图
plt.xlabel('平时')  # 横坐标轴标题
plt.ylabel('期末')  # 纵坐标轴标题
plt.show()

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_10,color_FFFFFF,t_70,g_se,x_16

2、接下来就是kmeans的核心算法了

k=3
i = 1
 
min1 = data.min(axis = 0)
max1 = data.max(axis = 0)
 
#在数据最大最小值中随机生成k个初始聚类中心，保存为t
centre = np.empty((k,2))
for i in range(k):
    centre[i][0] = random.randint(min1[0],max1[0])#平时成绩
    centre[i][1] = random.randint(min1[1],max1[1])#期末成绩
 
while i<500:
    
    #计算欧氏距离
    def euclidean_distance(List,t):
        return math.sqrt(((List[0] - t[0])**2   (List[1] - t[1])**2))
 
    #每个点到每个中心点的距离矩阵
    dis = np.empty((len(data),k))
    for i in range(len(data)):
        for j in range(k):
            dis[i][j] = euclidean_distance(data[i],centre[j])
    
    #初始化分类矩阵
    classify = []
    for i in range(k):
        classify.append([])
    
    #比较距离并分类
    for i in range(len(data)):
        List = dis[i].tolist()
        index = List.index(dis[i].min())
        classify[index].append(i)
    
    #构造新的中心点
    new_centre = np.empty((k,2))
    for i in range(len(classify)):
 
        new_centre[i][0] = np.sum(data[classify[i]][0])/len(classify[i])
        new_centre[i][1] = np.sum(data[classify[i]][1])/len(classify[i])
     
    #比较新的中心点和旧的中心点是否一样
    if (new_centre == centre).all():
        break
    else:
        centre = new_centre
        i = i   1
 
# print('迭代次数为：',i)
print('聚类中心为：',new_centre)
print('分类情况为：',classify)

注意！！！这里的k是指分成k类，读者可以自行选取不同的k值做实验

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_20,color_FFFFFF,t_70,g_se,x_16

3、可视化部分（将不用类用不同颜色区分开来~~）

mark = ['or', 'ob', 'og', 'ok','sb', 'db', '<b', 'pb'] #红、蓝、绿、黑四种颜色的圆点
#mark=['sb', 'db', '<b', 'pb']
plt.figure(3)#创建图表1  
for i in range(0,k):
 
    x=[]
    y=[]
    for j in range(len(classify[i])):
        x.append(data[classify[i][j]][0])
        y.append(data[classify[i][j]][1])
 
    plt.xlim(xmax=105,xmin=45)
    plt.ylim(ymax=85,ymin=-5)
    plt.plot(x,y,mark[i])
    #plt.show()

一起来康康可视化结果8！！

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_9,color_FFFFFF,t_70,g_se,x_16

二、接下来是调库代码！（sklearn）

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans  
from sklearn import metrics
 
df = pd.read_excel('13信科学生成绩.xlsx')
data = np.array(df)
y_pred=KMeans(n_clusters=3,random_state=9).fit_predict(data)
plt.scatter(data[:,0],data[:,1],c=y_pred)
plt.show()
print(metrics.calinski_harabasz_score(data,y_pred))

可视化结果和手撸的结果略有差别，有可能是数据集的问题，也有可能是k值选取的问题，各位亲们不需要担心！！！

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_9,color_FFFFFF,t_70,g_se,x_16

附：对k-means算法的认识

1.优点

（1）算法快速、简单。

（2）对大数据集有较高的效率并且是可伸缩性的。

（3）时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt) ,其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目。

2.缺点

（1）聚类是一种无监督的学习方法，在 K-means 算法中 K 是事先给定的，K均值算法需要用户指定创建的簇数k，但这个 K 值的选定是非常难以估计的。

（2）在 K-means 算法中，首先需要根据初始聚类中心来确定一个初始划分，然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响，一旦初始值选择的不好，可能无法得到有效的聚类结果，这也成为 K-means算法的一个主要问题。

（3）从 K-means 算法框架可以看出，该算法需要不断地进行样本分类调整，不断地计算调整后的新的聚类中心，因此当数据量非常大时，算法的时间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进，提高算法应用范围，而这导致K均值算法在大数据集上收敛较慢。

总结

到此这篇关于如何利用python实现kmeans聚类的文章就介绍到这了,更多相关python实现kmeans聚类内容请搜索Devmax以前的文章或继续浏览下面的相关文章希望大家以后多多支持Devmax！

如何利用python实现kmeans聚类的更多相关文章

XCode 3.2 Ruby和Python模板

在xcode3.2下,我的ObjectiveCPython/Ruby项目仍然可以打开更新和编译,但是你无法创建新项目.鉴于xcode3.2中缺少ruby和python的所有痕迹(即创建项目并添加新的ruby/python文件),是否有一种简单的方法可以再次安装模板？我发现了一些关于将它们复制到某个文件夹的信息,但我似乎无法让它工作,我怀疑文件夹的位置已经改变为3.2.解决方法3.2中的应用程序模板
Swift基本使用-函数和闭包(三)

声明函数和其他脚本语言有相似的地方，比较明显的地方是声明函数的关键字swift也出现了Python中的组元，可以通过一个组元返回多个值。传递可变参数，函数以数组的形式获取参数swift中函数可以嵌套，被嵌套的函数可以访问外部函数的变量。可以通过函数的潜逃来重构过长或者太复杂的函数。
10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
Swift、Go、Julia与R能否挑战 Python 的王者地位

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
红薯因 Swift 重写开源中国失败，貌似欲改用 Python

本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至dio@foxmail.com举报，一经查实，本站将立刻删除。
你没看错：Swift可以直接调用Python函数库

上周Perfect又推出了新一轮服务器端Swift增强函数库：Perfect-Python。对，你没看错，在服务器端Swift其实可以轻松从其他语种的函数库中直接拿来调用，不需要修改任何内容。以如下python脚本为例：Perfect-Python可以用下列方法封装并调用以上函数，您所需要注意的仅仅是其函数名称以及参数。
Swift中的列表解析

在Swift中完成这个的最简单的方法是什么？我在寻找类似的东西：从Swift2.x开始，有一些与你的Python样式列表解析相当的东西。(在这个意义上，它更像是Python的xrange。如果你想保持集合懒惰一路通过，只是这样说：与Python中的列表解析语法不同，Swift中的这些操作遵循与其他操作相同的语法。
swift抛出终端的python错误

每当我尝试启动与python相关的swift时,我都会收到错误.我该如何解决？
在Android上用Java嵌入Python

解决方法看看this,它适用于J2SE,你可以尝试在Android上运行.
在android studio中使用python代码构建android应用程序

我有一些python代码和它的机器人,我正在寻找一种方法来使用android项目中的那些python代码.有没有办法做到这一点！？解决方法有两种主要工具可供使用,它们彼此不同：>QPython>Kivy使用Kivy,大致相同的代码也可以部署到IOS.

随机推荐

10 个Python中Pip的使用技巧分享

众所周知，pip 可以安装、更新、卸载 Python 的第三方库，非常方便。本文小编为大家总结了Python中Pip的使用技巧，需要的可以参考一下
python数学建模之三大模型与十大常用算法详情

这篇文章主要介绍了python数学建模之三大模型与十大常用算法详情，文章围绕主题展开详细的内容介绍，具有一定的参考价值，感想取得小伙伴可以参考一下
Python爬取奶茶店数据分析哪家最好喝以及性价比

这篇文章主要介绍了用Python告诉你奶茶哪家最好喝性价比最高，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习吧
使用pyinstaller打包.exe文件的详细教程

PyInstaller是一个跨平台的Python应用打包工具，能够把 Python 脚本及其所在的 Python 解释器打包成可执行文件,下面这篇文章主要给大家介绍了关于使用pyinstaller打包.exe文件的相关资料,需要的朋友可以参考下
基于Python实现射击小游戏的制作

这篇文章主要介绍了如何利用Python制作一个自己专属的第一人称射击小游戏，文中的示例代码讲解详细，感兴趣的小伙伴可以跟随小编一起动手试一试
Python list append方法之给列表追加元素

这篇文章主要介绍了Python list append方法如何给列表追加元素，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
Pytest+Request+Allure+Jenkins实现接口自动化

这篇文章介绍了Pytest+Request+Allure+Jenkins实现接口自动化的方法，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
利用python实现简单的情感分析实例教程

商品评论挖掘、电影推荐、股市预测……情感分析大有用武之地,下面这篇文章主要给大家介绍了关于利用python实现简单的情感分析的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
利用Python上传日志并监控告警的方法详解

这篇文章将详细为大家介绍如何通过阿里云日志服务搭建一套通过Python上传日志、配置日志告警的监控服务，感兴趣的小伙伴可以了解一下
Pycharm中运行程序在Python console中执行,不是直接Run问题

这篇文章主要介绍了Pycharm中运行程序在Python console中执行,不是直接Run问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教