按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。
为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。
假定研究对象均用所谓的“点”来表示。
在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。
常见的是对个体分类,也可以对变量分类,但对于变量分类此时一般使用相似系数作为“距离”测量指标

材料/工具

SPSS

方法

  • 1
    数据包含6个变量
    是客户编号(Customer_ID)
    工作日上班时期电话时长(Peak_mins)
    工作日下班时期电话时长(OffPeak_mins)
    周末电话时长(Weekend_mins)
    国际电话时长(International_mins)
    总通话时长(Total_mins)
    平均每次通话时长(average_mins)
    根据前期的调研,研究者认为移动用户应当被分为5个主要群体,现希望得到相应的定量聚类结果。
  • 2
    看到结果无法收敛,所以重新设置迭代次数,让其收敛
  • 3
    重新迭代次数。
  • 4
    但是最终聚类出来,结果怪怪的。
  • 5
    各变量测量尺度,量纲不一样,聚类计算其距离时量纲大的对结果影响大。
  • 6
    重新聚类。
  • 7
    标准化的变量,一般在正负3以内,0代表平均水平。
  • 8
    但是看原始变量的原始水平,不看这标准化的保存个案被划分为哪个类。
  • 9
    只想看均值。
  • 10
    得到非标准化的聚类中心结果 。
END