扫二维码与项目经理沟通
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流
R语言做K均值聚类的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。
十年的红河哈尼网站建设经验,针对设计、前端、开发、售后、文案、推广等六对一服务,响应快,48小时及时工作处理。全网整合营销推广的优势是能够根据用户设备显示端的尺寸不同,自动调整红河哈尼建站的显示方式,使网站能够适用不同显示终端,在浏览器中调整网站的宽度,无论在任何一种浏览器上浏览网站,都能展现优雅布局与设计,从而大程度地提升浏览体验。创新互联建站从事“红河哈尼网站设计”,“红河哈尼网站推广”以来,每个客户项目都认真落实执行。
k均值聚类是一种比较常用的聚类方法,R语言里做k均值聚类比较常用的函数是kmeans()
,需要输入3个参数,第一个是聚类用到的数据,第二个是你想将数据聚成几类k
,第三个参数是nstart
https://www.datanovia.com/en/lessons/k-means-clustering-in-r-algorith-and-practical-examples/
这篇链接里提到
默认的nstart是1,推荐使用较大的值,以获得一个稳定的结果。比如可以使用25或者50。
那如果想使用k均值聚类的话,就可以分成两种情况,
df<-iris[,1:4]
iris.kmeans<-kmeans(df,centers=3,nstart = 25)
names(iris.kmeans)
iris.kmeans
结果里存储9个结果,可能会用到的是iris.kmeans$cluster
存储的是每个样本被归为哪一类iris.kmeans$size
存储的是每一个大类有多少个样本
使用散点图展示结果,借助factoextra
包中的fviz_cluster()
函数
library(factoextra)
fviz_cluster(object=iris.kmeans,data=iris[,1:4],
ellipse.type = "euclid",star.plot=T,repel=T,
geom = ("point"),palette='jco',main="",
ggtheme=theme_minimal())+
theme(axis.title = element_blank())
作图代码参考 https://degreesofbelief.roryquinn.com/clustering-analysis-in-r-part-2
cluster$tot.withinss
这个参数,选择出现平滑变化的那个点,他起的名字是
elbow method,英文解释是This method uses within-group homogeneity or within-group heterogeneity to evaluate the variability. In other words, you are interested in the percentage of the variance explained by each cluster. You can expect the variability to increase with the number of clusters, alternatively, heterogeneity decreases. Our challenge is to find the k that is beyond the diminishing returns. Adding a new cluster does not improve the variability in the data because very few information is left to explain.
这个英文解释我也没有看明白。实际操作的代码是
下面用USArrests
这个数据集是美国50个州1973年每10万人中因某种罪被捕的人数,共4个变量
df<-USArrests
kmean_withinss <- function(k) {
cluster <- kmeans(df, k,nstart = 25)
return (cluster$tot.withinss)
}
wss<-sapply(2:20, kmean_withinss)
wss
elbow<-data.frame(A=2:20,B=wss)
library(ggplot2)
ggplot(elbow,aes(x=A,y=B))+
geom_point()+
geom_line()+
scale_x_continuous(breaks = seq(1, 20, by = 1))+theme_bw()
从上图看,7到8好像是变得比较平滑的,那我们先选7看看
usa.kmeans<-kmeans(df,centers=7,nstart = 25)
fviz_cluster(object=usa.kmeans,df,
ellipse.type = "euclid",star.plot=T,repel=T,
geom = c("point","text"),palette='jco',main="",
ggtheme=theme_minimal())+
theme(axis.title = element_blank())
从图上看划分成7类有点多了
https://www.datanovia.com/en/lessons/k-means-clustering-in-r-algorith-and-practical-examples/
这个链接里提到factoextra
这个包里有一个函数fviz_nbclust()
直接可以选择最优的k
fviz_nbclust(df, kmeans, method = "wss")
从图上看4到5变得平滑了,选择4试一下
usa.kmeans<-kmeans(df,centers=4,nstart = 25)
fviz_cluster(object=usa.kmeans,df,
ellipse.type = "euclid",star.plot=T,repel=T,
geom = c("point","text"),palette='jco',main="",
ggtheme=theme_minimal())+
theme(axis.title = element_blank())
从图上看有部分重叠的地方,还有一种办法就是把数据标准化一下
df1<-scale(df)
usa.kmeans<-kmeans(df1,centers=4,nstart = 25)
fviz_cluster(object=usa.kmeans,df,
ellipse.type = "euclid",star.plot=T,repel=T,
geom = c("point","text"),palette='jco',main="",
ggtheme=theme_minimal())+
theme(axis.title = element_blank())
看完上述内容,你们掌握R语言做K均值聚类的示例分析的方法了吗?如果还想学到更多技能或想了解更多相关内容,欢迎关注创新互联行业资讯频道,感谢各位的阅读!
我们在微信上24小时期待你的声音
解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流