K-Means算法原理及其python实现(学习笔记)
itomcoil 2025-09-04 07:46 6 浏览
1.基本K-Means算法
K-Means算法是较为常用的聚类算法,其目标是将数据点划分为K个类簇。K-Means主要思想是选取K个中心点,对最靠近它的对象进行归类,通过迭代的方式不断更新聚类结果,直到满足使用者的要求。
2.K-Means算法主要实现步骤
(1)确定K值,将数据集划分为K组,确定K值没有最好的方法,一般情况下根据具体问题由人工进行选择。
(2)从数据集中选择K个点作为数据中心(可随机选择,可由距离选择)。
(3)分别计算每个点到每个质心之间的距离,并将每个点划分到离最近质心的小组。
(4)当每个中心都聚集一些点后,根据规则重新选取新的数据中心。
(5)跌倒(2)~(4),直到满足终止条件为止。
3.python实现
K-Means主要包括获取数据中心、获取每个数据点到数据中心的距离、更新数据中心等主要功能,笔者实现时,还加入了一些处理函数,下面为大家逐一讲解。
def get_center(data,k):
dim=np.shape(data)[1]#获取原始数据的维度
center=np.zeros((k,dim))#k*n列矩阵
ocenter=sample(list(data),k)#随机选取k个数据中心
for i in range(k):
center[i]=ocenter[i]#将数据中心写入矩阵
#center=center.astype(np.int)
return center
上述代码主要实现了获取数据中心的功能,输入参数data为输入的原始数据,K是想要分为K组。
def get_distance(a,b):
return math.sqrt(sum(pow(a-b,2)))#计算两点之间距离
def detele_center(data,center,K):#将数据中心从原始数据中删除
ex_data = data
for i in range(K):#遍历维度
# print('centeri=',center[i],'\n')
for j in range(len(ex_data)):#遍历数据行数
# print('exdataj=',ex_data[j],'\n')
if (center[i] == ex_data[j]).all:#若数据中心和原始数据相等,则删除
ex_data = np.delete(ex_data, j, axis=0) # 删除整行数据
break
return ex_data
def delete_zero(a):#传入分组结果,将分组没用到的位置删除
group=list(a)
index=[]
for j, each in enumerate(group):#若group=[2 2],则enumerate(group)可生成[(0,2),(1,2)]的list
if each == 0:#若值为0则删除
index.append(j)
del group[j]
for k, each in enumerate(group):
each_int = int(each)
group[k] = each_int
group = np.array(group)
return group
def get_updatecenter(n_data,K):#输入n_data的数据类型为(n,2)的list
# n行代表的是从原始数据剔除数据中心后的数据行数
#列1代表的是分组结果,列2代表的是数据点
center=[]
write = True#写指针
for i in range(K):
exec("center_" + str(i) + "=[]")#生成K个list分别存储k个组的数据点
while write:
for i in range(K):
for j in range(len(n_data)):
if i + 1 == n_data[j][0]:#索引从0开始,分组从1开始,将当前组的数据存入对应的list
exec("center_" + str(i) + ".append(n_data[j][1])")
n_data.remove(n_data[j])#移除该数据点
break
if len(n_data) == 0:#若全部写入对应list后,跳出循环
write = False
for i in range(K):#生成k个变量存储k个数据中心
print("center_" + str(i) + "=")
exec("print(center_" + str(i) + ")")
ex_data = data#数据移除后,重新接收
for i in range(K):#从每组中随机选择1个新的数据中心
exec("center_0" + str(i) + "=get_center(center_" + str(i) + ",1)")
exec("center.append(center_0"+str(i)+")")
ex_data=detele_center(ex_data,center,K)#移除数据中心,获取新的实验数据
for i in range(K):#调试用,查看每个数据中心
print("center_0"+str(i)+"=")
exec("print(center_0"+str(i)+")")
return ex_data
def K_Means(data,K):#K-Means处理流程
center=get_center(data,K)#获取数据中心
print("初始中心点坐标为:\n", center)
ex_data=detele_center(data,center,K)#获取实验数据
print("实验数据为:\n",ex_data)
n=np.shape(ex_data)[0]
flag=True#判断符
ogroup = 0#用于存储上一次的分组结果
while flag:
shorest_distance = float("inf")#初始化最短距离为无穷大
group = np.zeros((n, 1)) # 记录组号,group记录每一个数据点的组号
distance = 0
idex = 0
print("ex_data=",ex_data)
#print("")
#print("group=", len(group))
for i in range(len(ex_data)):#遍历实验数据行
for j in range(K):#遍历维度
distance=get_distance(ex_data[i],center[j])#计算每个数据点到数据中心的距离
#print("distance=\n",distance)
if distance<shorest_distance:
shorest_distance=distance
idex=j+1 #记录组号
#print("shorest_distance=\n",shorest_distance)
group[i]=idex#写入group
group=group.astype(np.int)
group=delete_zero(group)
group=np.array(group)
print("ogroup=",ogroup)
if all(ogroup==group):#若上一次存储结果和本次相同,表示迭代结果不会发生变化,跳出循环
flag=False
else:
ogroup=group
print("group=\n",group)
#若继续迭代
n_data1=list(zip(group,ex_data))#将分组结果和实验数据进行对应建立(n,2)的list
nlist=list(range(1,K+1))#生成一个1~k的list,1~k的编号
n_data2=list(zip(nlist,center))#将1~k的编号和数据中心对应
n_data=n_data1+n_data2#生成一个每个数据点的值和其分组结果对应的list
ex_data=get_updatecenter(n_data,K)#更新数据中心
return group
#test
data=np.array([[1,2],[7,8],[100,200],[50,70],[8,9],[30,12],[170,14],[189,768],[371,876],[876,476]])
group=K_Means(data,3)
print('group:\n',group)
4.总结
优点:
(1)实现简单。
(2)运行效率较高。
(3)当结果簇是密集的,效果较好。
缺点:
(1)必须事先给出K值。
(2)对孤立点和噪声较为敏感。
感谢阅读!!!
多说一句,很多人学Python过程中会遇到各种烦恼问题,没有人解答容易放弃。小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“01”即可领取。
相关推荐
- Filter函数在WPS里的正确用法,官方教程里都没有说......
-
Filter函数是office365新增的筛选函数,WPS也紧跟添加了它。但在二个软件中的使用方法却完全不同。office365有单元格溢出功能,只需要输入一个Filter公式即可完成数据筛选。但在W...
- 跳过VLOOKUP天坑!FILTER函数10个招式让同事以为你开了外挂?
-
还在为VLOOKUP的"一对多"限制头疼?是否还在为INDEX+MATCH的嵌套抓狂?今天教你用Excel新晋顶流——FILTER函数,10个高能用法让你秒变数据操控大师!用法1:精准...
- Filter函数的三种用法,比用VLOOKUP一对多查询,更加灵活方便
-
文章最后有彩蛋!好礼相送!Excel秘籍大全,正文开始FILTER函数可以基于定义的条件筛选一系列数据。在没有filter函数之前,如果实现一对多查询,常见的是构建辅助列,然后使用VLOOKUP+R...
- Filter函数公式,快速实现订单核对,1分钟学会
-
举个例子,我们有一份公司所有的订单源数据表格,这里我们只用两列信息来模拟,实际可能有很多列数据,几百行数据然后我们有另外一个表,里面有部分已经处理过的订单数据,如下所示,这里举例是4个,实际可能有上百...
- FILTER函数结合及经典用法2:一对多筛选
-
FILTER经典用法2:一对多筛选。FILTER函数的经典用法2:一对多的筛选。比如左边这个表格,需要根据部门筛选出每个部门的人员,应该怎样做?·把鼠标放在单元格内,在编辑栏输入等于FILTER。·第...
- 干掉VLOOKUP,FILTER函数9大用法全解析!
-
1.单条件基础筛选场景:筛选销量>5000的记录公式:=VSTACK(A1:D1,FILTER(A2:D9,D2:D9>5500))解析:A2:D9为需要筛选的数据区域,D2:D9&...
- Excel新函数公式Filter,秒杀VLOOKUP,人人必学
-
以前VLOOKUP公式是必学的公式,自从新版本更新之后,VLOOKUP已经变得可有可无了,但是新出来的Filter函数公式,你必须学会,它非常的强大,工作中用到非常频繁1、Filter公式背景在学会这...
- 第一讲:filter的基本用法及拓展_filter详解
-
全能查找函数filter的基本用法及拓展初学者,务必观看。进阶者,可互相学习,欢迎在回复中补充新用法。首次撰写此函数相关内容,若有不足之处,请予以指教,请勿诋毁,多谢。提示:以下内容以WPS最新版本为...
- 测一测你是什么粒子?_测测你是什么质
-
大亚湾实验。|图片来源:RoyKaltschmidt,LawrenceBerkeleyNationalLaboratory/WikimediaCommons2020年12月12日,大亚湾...
- SpringBoot如何处理配置文件的密文
-
在SpringBoot应用中,直接在配置文件(如application.yml或application.properties)中明文存储数据库密码、API密钥等敏感信息是严重的安全风险,...
- 大语言模型解释Python的 类装饰器
-
一、什么是类装饰器?在Python中,装饰器(Decorator)是一种高阶函数,它接受另一个对象(通常是函数或类),并返回一个经“增强”处理后的新对象。我们常见的是对函数进行装饰:@my_dec...
- Thymeleaf_thymeleaf属于前端吗
-
一、Thymeleaf简介Thymeleaf是用来开发Web和独立环境项目的服务器端的Java模版引擎Spring官方支持的服务的渲染模板中,并不包含jsp。而是Thymeleaf和Freemarke...
- Win9去哪了?Win10避讳Windows95、98
-
10月1日,微软在旧金山发布了新一代操作系统预览版。但不是名为Windows9,而是win10,有业内人士猜测,跳过9而取10为命名是为了预示十全十美。可是小编还觉得9还代表长长久久呢!恐怕这里又说...
- 仓颉编程练习-字符串操作_仓颉编译器
-
main.cj:importstd.convert.Parsablemain():Int64{//字符串比较lets1:String="abc"...
- 一课译词:断断续续_一课译词:断断续续的意思
-
PhotobyMikefromPexels“断断续续”,或“时断时续”,意思是时而中断,时而继续地接连下去(continuefromtimetotime)。与英文惯用语“fitsan...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)