设为首页收藏本站

EPS数据狗论坛

搜索
快捷导航
查看: 296|回复: 2

[数据可视化] 聚类分析中的可视化

[复制链接]

14

主题

112

金钱

187

积分

入门用户

发表于 2019-12-16 15:07:14 | 显示全部楼层 |阅读模式

第一步:安装和加载聚类分析R包-factoextra
  1. library(pacman)
  2. p_load(factoextra)
复制代码


第二步:导入数据集,采用R语言自带的USArrests
  1. # 导入数据集
  2. data("USArrests")
  3. # 数据集理解
  4. ?USArrests
  5. # 数据集检视
  6. head(USArrests)
复制代码


第三步:数据集准备与处理,对数据集做标准化处理,每列转换为均值为0,标准差为1
  1. df <- scale(USArrests)
  2. head(df, 10)
复制代码


第四步:聚类分析及可视化。
不管是层次聚类还是划分聚类,都要寻找一个距离度量。然后根据计算后的距离,采用不同的策略进行数据集的汇聚。

4.1 基于相关系数的距离度量和可视化
  1. res.dist <- get_dist(df, method = "pearson")
  2. head(round(as.matrix(res.dist), 2))[, 1:6]
  3. # 可视化相关系数矩阵
  4. fviz_dist(res.dist, lab_size = 8)
复制代码

1.png

4.2 增强型分层聚类和可视化
  1. res.hc <- eclust(df, "hclust")
  2. fviz_dend(res.hc, rect = TRUE) # 树图
  3. fviz_cluster(res.hc) # 散点图
  4. fviz_silhouette(res.hc) # 轮廓图
复制代码


分层树图
2.png
聚类散点图
3.png
轮廓图
4.png

4.3 增强型K均值聚类和可视化
  1. res.km <- eclust(df, "kmeans", nstart = 25) #聚类的散点图
  2. fviz_gap_stat(res.km$gap_stat) # 不同K值下Gap 统计图,指导选择最佳K值
  3. fviz_silhouette(res.km) # 轮廓图,每种聚类下面的分布情况
复制代码


聚类散点图
5.png
不同K值Gap统计图
6.png
轮廓图
7.png
k均值结果可视化的其他表示方式
  1. p_load(cluster, fpc)
  2. plotcluster(USArrests, res.km$cluster)
复制代码

8.png
  1. clusplot(USArrests, res.km$cluster, color=TRUE, shade=TRUE,
  2.          labels=2, lines=0)
复制代码

9.png

7

主题

641

金钱

2765

积分

中级用户

发表于 2019-12-30 21:32:17 | 显示全部楼层
赞一个,谢谢!!
ximenyan
回复 支持 反对

使用道具 举报

7

主题

641

金钱

2765

积分

中级用户

发表于 2019-12-30 21:32:39 | 显示全部楼层
,great!
ximenyan
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
9:00-18:00
QQ群:
542280196
联系电话:
010-85786021-8014
在线咨询
客服中心

Powered by BFIT! X3.2© 2008-2018 BFIT Inc.

快速回复 返回顶部 返回列表