r语言kmeans聚类(真实案例完整流程)-程序员宅基地

技术标签: R  k-means算法  机器学习  聚类算法  r语言  kmeans  

K-means介绍

k-means算法简介:

K-means算法是IEEE 2006年ICDM评选出的数据挖掘的十大算法中排名第二的算法,排名仅次于C4.5算法。K-means算法的思想很简单,简单来讲就是对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大,两个对象之间的距离越近,相似性越高。聚类的结果就是使类内部的同质性高,而类之间的异质性高。

k-means算法的具体工作流程如下:

step1:导入一组具有n个对象的数据集,给出聚类个数k;
step2:从n个对象中随机取出k个作为初始聚类中心;
step3:根据欧几里得距离来判断相似度量,确定每个对象数据哪个簇;
step4:计算并更新每个簇中对象的平均值,并将其定为每个簇的新的聚类中心;
step5:计算出准则函数E;
step6:循环step3,step4,step5直到准则函数E在允许的误差范围内;

k-means算法的几个主要特点:

  • 发现球形互斥的簇:由于K-means算法一般是以欧几里得距离作为相似性度量指标,所以K-means算法对于球形互斥的簇的聚类效果会比较好;
  • 对低维数据集效果较好:同样的数据量,维度越高,数据矩阵越稀疏,当数据维度比较高时,数据矩阵是一个稀疏矩阵,K-means算法稀疏矩阵数据聚类效果不佳;
  • 容易陷入局部最优:对于K-means算法来说,初始聚类中心的确定十分重要,因为不同的聚类中心会使算法沿着不同的路径搜索最优聚类结果,不过对于陷入局部最优这个问题可以从初始聚类中心的选择来进行改进。

R语言编程实现:

##### 案例数据 #########
setwd("E:/data")
data_model <- read.csv("data.csv",header = T)
data_model_1 <- data_model[,1:4]
head(data_model_1)

这里写图片描述

######## 数据查看 ###############
dim(data_model_1)
str(data_model_1)
summary(data_model_1)

这里写图片描述

# y~V1-Vn数据相关性探索
(data_cor <- cor(data_model_1))   

library(car)
scatterplotMatrix(data_model_1)   

这里写图片描述

相关关系不是特别明显,进行量化表现:

library(corrplot)
corrplot(corr = data_cor, method = 'color', addCoef.col="grey") 

这里写图片描述

可以明显看出y和V1、V2呈负相关关系,系数分别为-0.15及-0.07,y和V3呈正相关关系,且系数较高为0.22。

K-means模型训练

data <- data_model_1[,2:4]

定义kmeans聚类函数My_Kmeans

#默认的最大迭代次数为10
My_kmeans <- function(data,k,max.iter=10){
  
  rows <- nrow(data) 
  cols <- ncol(data) 
  
  within <- matrix(0,nrow=k,ncol=1) 
  between <- 0
  iter = 0
  
  #定义indexMatrix矩阵,第一列为每个数据所在的类,第二列为每个数据到其类中心的距离
  indexMatrix <- matrix(0,nrow=rows,ncol=2) 
  
  centers <- matrix(0,nrow=k,ncol=cols) 
  randSeveralInteger <- as.vector(sample(1:rows,size=k))
  #通过生成随机数的方式,得到初始的聚类中心
  for(i in 1:k){
    indexMatrix[randSeveralInteger[i],1] <- i
    centers[i,] <- data[randSeveralInteger[i],]
    centers <- matrix(centers,k,cols)
  }
  changed = TRUE 
  
  while(changed){ 
    
    if(iter >= max.iter)
      break
    
    changed=FALSE
    
    #对每一个数据,计算其到各个类中心的距离,并将其划分到距离最近的类
    for(i in 1:rows){ 
      initialDistance <- 10000 
      previousCluster <- indexMatrix[i,1]
      
      #遍历所有的类,将该数据划分到距离最近的类
      for(j in 1:k){ 
        currentDistance <- (sum((data[i,]-centers[j,])^2))^0.5
        if(currentDistance < initialDistance){
           initialDistance <- currentDistance 
           indexMatrix[i,1] <- j 
           indexMatrix[i,2] <- currentDistance 
      } 
    }
    
    #如果该数据所属的类发生了变化,则将changed设为TRUE,算法继续
    if(previousCluster!=indexMatrix[i,1]) 
      changed=TRUE
  }
  
  #重新计算类中心
  for(m in 1:k){
    clusterMatrix <- data[indexMatrix[,1]==m,] 
    clusterMatrix <- as.matrix(clusterMatrix)
    if(nrow(clusterMatrix)>0){ 
      centers[m,] <- colMeans(clusterMatrix) 
    } 
    else{
      centers[m,] <- centers[m,] 
    }    
  }
  iter = (iter+1)
}

参数注释:

  • data:表示待聚类的数据
  • k:要聚类的数目
  • max.iter:聚类的最大迭代次数,默认值是10
  • cluster:聚类的结果,也就是每个对象所属的类
  • tot.withinss:聚类的总的类内平方和,用来衡量类内差异
  • betweenss:聚类的类间平方和,用来衡量类间差异

原始数据标准化

min.max.norm <- function(x){
  ((x-min(x))/(max(x)-min(x)))
}

data <- apply(data,2,min.max.norm)

确定最优K

# k取2到8,评估K
library(fpc) 
K <- 2:8
round <- 10 # 每次迭代10次,避免局部最优
rst <- sapply(K, function(i){
  print(paste("K=",i))
  mean(sapply(1:round,function(r){
    print(paste("Round",r))
    result <- My_kmeans(data, i)
    stats <- cluster.stats(dist(data), result$cluster)
    stats$avg.silwidth
  }))
})

# 可以看到如下的示意图
plot(K,rst,type='l',main='轮廓系数与K的关系', ylab='轮廓系数')    #轮廓系数越大越好

这里写图片描述

可以看出,当K=3时,轮廓系数最大,因此我们取K=3。

实际数据检验函数

result <- My_kmeans(data,k=3) #进行聚类
result$cluster
result$tot.withinss
result$betweenss
result$iteration

聚类结果可视化

plot(data_model$V1,data_model$V3,col=result$cluster,main="My_kmeansClustering",pch=19)

这里写图片描述

聚类结果导出

result_output <- data.frame(data_model[,1:4],result$cluster)

write.csv(result_output,file="result_output.csv",row.names=T,quote=F)

三个分群的概率密度函数图

Data1 <- data_model[,2:4][which(result_output$result.cluster==1),]
Data2 <- data_model[,2:4][which(result_output$result.cluster==2),]
Data3 <- data_model[,2:4][which(result_output$result.cluster==3),]

opar <- par(no.readonly = TRUE)  #复制一份单签的图形参数
png("kmean.png")
par(mfrow = c(3,3))
plot(density(Data1[,1]),col="red",main="R")
plot(density(Data1[,2]),col="red",main="F")
plot(density(Data1[,3]),col="red",main="M")
plot(density(Data2[,1]),col="red",main="R")
plot(density(Data2[,2]),col="red",main="F")
plot(density(Data2[,3]),col="red",main="M")
plot(density(Data3[,1]),col="red",main="R")
plot(density(Data3[,2]),col="red",main="F")
plot(density(Data3[,3]),col="red",main="M")
par(opar)

这里写图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/yawei_liu1688/article/details/79644364

智能推荐

服务器设置虚拟内存有什么好处,高频率内存有哪些优势?虚拟内存是什么-程序员宅基地

文章浏览阅读601次。为增进大家对内存的认识,本文将为大家介绍高频率内存的优势。此外,小编还将对虚拟内存加以探讨。我们每天都在同内存打交道,但大家对内存真的了解吗?上篇文章中,我们对服务器内存以及服务器内存技术有所介绍,为增进大家对内存的认识,本文将为大家介绍高频率内存的优势。此外,小编还将对虚拟内存加以探讨。如果你对内存及其相关知识具有兴趣,不妨继续往下阅读哦。一、高频率内存优势由于决定内存性能的核心因素有内存容量、..._服务器内存频率高有什么好处

微信小程序使用echarts真机调试报错:HTMLCanvasView is not defined_html canvas is not defined-程序员宅基地

文章浏览阅读3.6k次,点赞4次,收藏8次。报错内容:解决办法:给组件传入force-use-old-canvas="true"就可以在真机调试里展示了。重点:发布线上时,一定要将这句去掉,现在只是不支持真机调试,线上是可以使用的。重点:发布线上时,一定要将这句去掉,现在只是不支持真机调试,线上是可以使用的。重点:发布线上时,一定要将这句去掉,现在只是不支持真机调试,线上是可以使用的。<view style="width:..._html canvas is not defined

计算机基础知识 常见简答,第一章 计算机基础知识(多选和简答)及答案-程序员宅基地

文章浏览阅读457次。计算机第一章计算机基础知识多项选择题(有两个或两个以上正确答案)1、下列说法中,正确的是________。A、一个汉字用1个字节表示 B、在微机中,使用最普遍的字符编码是ASCII码C、高级语言程序可以编译为目标程序 D、ASCII码的最高位用作奇偶校验位2、文件型(外壳型)计算机病毒主要感染扩展名为________。A、COM B、BAT C、EXE D、DOC3、..._达成某一任务的指令的会合称为语言

[SceneKit专题]25-如何制作一个像Can-Knockdown的游戏-程序员宅基地

文章浏览阅读232次。说明SceneKit系列文章目录更多iOS相关知识查看github上WeekWeekUpProject本教程将包含以下内容:在SceneKit编辑器中建立基本的3D场景.编程加载并呈现3D场景.建立仿真物理,如何应用力.通过触摸与3D场景中的物体交互.设计并实现基本的碰撞检测.开始开始前,先下载初始项目starter project打开项目,简单查看一下里面都有些..._can knockdown1下载

Unity Shader的结构_unity的扩展sprites的shader-程序员宅基地

文章浏览阅读1.3k次。材质和Unity Shader在unity中,需要配合使用材质Material和Unity Shader才能达到需要的效果流程创建一个材质→创建一个Unity Shader,并把它赋给上一步中创建的材质→把材质赋给要渲染的对象→在材质面板中调整Unity Shader的属性,以得到满意的效果Unity中的材质Unity中的材质需要配合一个GameObject的Mesh或者Particle Systen组件来工作,它决定了我们的游戏对象看起来是什么样子的Unity中的Shader为了和前面通用的_unity的扩展sprites的shader

spring cloud 的断路器(Hystrix) 依赖添加注意点_hystrix最新依赖-程序员宅基地

文章浏览阅读3.6k次。最新的Hystrix 依赖都是隶属于netfix下,这样@HystrixCommand 和@EnableHystrixDashboard 才能使用&lt;dependency&gt; &lt;groupId&gt;org.springframework.cloud&lt;/groupId&gt; &lt;artifactId&gt;spring-cloud-starter-netf..._hystrix最新依赖

随便推点

Qt之文本编码转换_qt 将txt文件转换成字符串-程序员宅基地

文章浏览阅读844次。一、QTextCodecQTextCodec类提供了文本编码转换功能。指定字符集对文本进行转换。1.Qt程序中所有要显示到界面上的字符串最好都是用tr()函数;代码如下(示例):QTextCodec::setCoderForTr(QTextCodec::codecForName("UTF-8"));QLabel label;label.setText(QObject::tr("你好,世界!"));2.对于不是要显示到界面上的字符串中如果包含了中文,可以使用QString()进行编码转换。代_qt 将txt文件转换成字符串

在idea上使用git建立连接gitee上的仓库_the breanch to pull from should be selected-程序员宅基地

文章浏览阅读2k次。error: failed to push some refs to 'https://gitee.com/liyue25/test.git'To https://gitee.com/liyue25/test.githint: Updates were rejected because the remote contains work that you dohint: not have locally. This is usually caused by another repository push_the breanch to pull from should be selected

day11-函数作业_写一个自己的rjust函数,创建一个字符串的长度是指定长度,原字符串在新字符串中右-程序员宅基地

文章浏览阅读94次。写一个自己的rjust函数,创建一个字符串的长度是指定长度,原字符串在新字符串中右对齐,剩下的部分用指定的字符填充。写一个自己的index函数,统计指定列表中指定元素的所有下标,如果列表中没有指定元素返回-1。写一个自己的replace函数,将指定字符串中指定的旧字符串转换成指定的新字符串。编写一个函数,提取指定字符串中所有的字母,然后拼接在一起产生一个新的字符串。写一个自己的endswith函数,判断一个字符串是否已指定的字符串结束。写一个自己的upper函数,将一个字符串中所有的小写字母变成大写字母。._写一个自己的rjust函数,创建一个字符串的长度是指定长度,原字符串在新字符串中右

spring自定义全局异常_18jzz大全-程序员宅基地

文章浏览阅读1.3k次。spring自定义全局异常背景学习目标案列背景在springmvc的controller中程序员经常要封装错误对象返回错误,前端显示错误文案。通过spring的异常处理器,来进行自定义异常处理学习目标学习全局异常拦截器处理controller所有的异常的返回封装定义枚举异常码,设计自定义异常案列创建枚举异常码,定义系统异常情况/** * @author tianjz */..._18jzz大全

[py]你真的了解多核处理器吗? 了解多线程-程序员宅基地

文章浏览阅读95次。越来越多的人搞爬虫,设计到多线程爬取, 还有一些机器学习的一些模块也需要这玩意, 感觉自己不会逼格不高. 抽时间赶紧玩一玩这东西, 希望提高对软件的认知和归属感,不要太傻.cpu内部架构参考你知道CPU是如何工作的?-视频CPU核心越多越好?你的CPU可能正在养老!你真的了解多核处理器吗?1.双核≠双性能多核不一定会使你的手机或电脑速度更快,但它将提高你的PC的整体性能,这是一个...

XBee模块实现QGC与PX4飞控的组网通信连接_xbee实现多机控制-程序员宅基地

文章浏览阅读2k次,点赞5次,收藏18次。本篇博客介绍如何利用XBee模块实现QGC地面站与飞控的通信_xbee实现多机控制

推荐文章

热门文章

相关标签