K均值聚类的定义及相关基础知识大家自行百度查询,这里不做赘述;本文主要从实操角度介绍K均值聚类的SPSS操作方法及一直困扰大家的K值选择问题。
本文中的案例数据,如有需要的可以评论留言获取,支持邮箱或百度网盘!
一、SPSS K均值聚类的基本步骤
1、数据读取,并检查数据质量(图一)

图一

图二
通过描述统计可以看出数据波动较大,且维度间的量纲差距也较大,因此在K均值分析前需要将数据进行标准化,去除量纲影响。

图三
在分析——描述性统计中对话框中勾选将标准化值另存为变量即可完成数据的标准化。
二、K均值分析
选择分析-分类-K均值分类

图四
变量选择标准化后的数据,个案选择客户ID,初始聚类数选择K=5,最大清代次数选择99

图五
同时保存聚类成员与中心距离

图六
勾选选项中的相关菜单

图七
三、结果解读
1、初始聚类中心与经过迭代计算后的聚类中心,一共经过18次迭代实现收敛

图八

图九

图10
2、ANOVA 表记录了假设检验的结果,结果显著表明聚类有效

图11
3、根据积累结果绘制三维散点图,根据实际业务场景进行应用

图12
上面的步骤简要介绍了K均值聚类的方法步骤,但是大家肯定好奇为什么选择初始K值为5,而不选的别的数字,下面就介绍一下关于K值选择的方法。
1、根据业务场景明确需要的聚类数目,一般RMF聚类选择则3;
2、根据不同K值的误差均方和变化,选择合适的K值(肘线法)

图13
选择考K=5,或者K=6时,达到误差下降的拐点。
创业项目群,学习操作 18个小项目,添加 微信:790838556 备注:小项目!
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 zoodoho@qq.com举报,一经查实,本站将立刻删除。
如若转载,请注明出处:https://www.zoodoho.com/26109.html
如若转载,请注明出处:https://www.zoodoho.com/26109.html