SPSSAU教程15:聚类问卷研究分析思路 - 知乎
聚类,顾名思义,就是将原本无规律的数据,通过比较数据之间的相似性,找出它们的联系,将差别小的数据分为一类,保证不同类别之间的差别较大。聚类研究一般是对研究的样本人群进行分析,把人群划分为不同类别,再对不同类别人群的差异进行分析。
分析时很多人容易把聚类和因子分析的概念弄混,其实两者既有联系也有区别。区别:
因子分析:分为探索性因子分析和验证性因子分析,多用来分析问卷效度、浓缩信息、计算权重或者分析综合竞争力。比如将20个题浓缩为5个关键词。
聚类分析:分为样本聚类和变量聚类,通常比较常用样本聚类,比如有500个人,这500个人可以聚成几个类别。联系:
在研究中,可以先做因子分析浓缩题项信息,也就是把多个题浓缩成几个变量,得到因子得分。然后将因子得分进一步聚类分析,得到几个类别群体,可用于后续的研究。聚类分析思路框架
具体分析步骤:
1、样本背景分析。首先对研究数据样本基本特征情况(比如性别、年龄、学历等)进行分析
2、样本特征、行为分析。如果有涉及样本群体的特征、行为、或者态度相关项,则可单独一部分进行分析
3、指标归类分析。如果研究量表数据并不知道分成几个维度,比如有20个量表题,应该分成几个维度并不确定,此时可使用因子分析方法进行。找出应该分成几个维度,以及题项和维度的对应关系情况。
4、信度和效度分析。接着对量表项进行信度和效度分析( 因子分析已经得出维度与题项对应关系,此时说明已经有效度,有时也可放弃效度分析,从内容完整性上建议放入)
5、聚类分析。完成因子分析后,已经确认得到几个维度,可将此几个维度进行聚类,得到几种类别的群体,然后结合每类群体的特征,给每个聚类类别进行命名。
6、聚类效果验证。严格意义上的聚类分析并非统计检验分析方法,而是一种数据描述性方法。从应用角度看,研究人员可以使用以下几种方法综合判断聚类效果:第一,看聚类后的类别是否可以有效命名,且是否符合现实意义。第二,判断分析方法进行判断,将软件生成的聚类类别变量作为因变量(Y),将聚类变量作为自变量(X),判别分析聚类变量与类别之间投影关系情况。第三,文字说明聚类分析方法的详细过程及科学性。第四,要看聚类分析后每个类别样本量是否均匀,如果聚类结果显示为三个类别,其中一个类别样本量非常少,说明聚类效果可能较差。
7、得到聚类类别之后,接着需要对比不同类别群体的差异性;包括比如在“特征”、“行为”或者“态度”上的差异性。便于结合不同群体提供不同的建议措施等。如果是研究聚类样本的个体背景特点差异,聚类类别和样本背景题项均为分类数据,因而应该使用卡方分析进行对比差异,进一步了解不同细分类别人群在个体背景上的差异情况,便于对类别样本进行深入分析。
研究者还可以对比不同类别样本与问卷中其余题项的差异情况,如果题项为定量数据则需要使用方差分析,如果题项为分类数据则使用卡方分析,如果题项为多选题,也应该使用卡方分析
此类问卷思路的核心特点在于“分类”,即对样本人群细分。在此基础之上,才会有后面的关于不同类别人群的差异分析。
上部分已经对整体框架进行说明,这部分主要对聚类的分析步骤进行进一步说明。其他分析步骤的说明在之前的文章都有介绍,这里就不再重复。
聚类分析常见的方法有:两步聚类、K-均值聚类、系统聚类。
两步聚类可以同时处理定类数据和定量数据,并且可以系统自动寻找最有聚类类别数量。使用与数量大且结构复杂的分析。
K-均值聚类,又叫快速聚类,可以快速处理大量数据,速度快并且处理大量数据是K-均值聚类的优点,但其仅针对定量数据而不能处理分类数据,并且需要主观设定聚类类别个数,不能自动寻找最优聚类类别数量。
用户可在SPSSAU【进阶方法】-【聚类】中可以使用此聚类方法。
系统聚类,又叫分层聚类,基本思路是将多个样本各作为一类,计算样本两两之间的距离,合并距离最近的两类成新的一类,然后再计算距离,再合并,直到只有一类为止。
用户可在SPSSAU【进阶方法】-【分层聚类】中可以使用此聚类方法。
分析步骤上:
第一步:数据处理。如果样本数据度量单位不统一,比如有的题项是以七级量表,而有的题项为五级题项。此时应该进行数据处理,即数据标准化处理。常见是进行Z值法标准化。
第二步:进行聚类分析。如果是按样本聚类,则使用SPSSAU的进阶方法模块中的“聚类分析”功能,其会自动识别出应该使用K-means聚类算法还是K-prototype聚类算法;如果是按变量(标题)聚类,则使用分层聚类,并且结合聚类树状图进行综合判定分析。
第三步:聚类效果验证。聚类效果不同于其它分析方法,其它分析方法可以通过P值进行检验。聚类效果需要通过研究经验,并且结合专业知识进行综合判断。良好的聚类分析结果可以有效的识别样本特征,因而聚类出的不同类别样本,应该有着完全差异性特征。
针对聚类样本的特征差异对比,通常是使用方差分析进行对比,如果聚类变量为分类数据,应该使用卡方分析进行对比。通过方差分析或者卡方分析,找出各个类别样本的具体特征差异情况,并且结合不同类别样本的特征情况进行命名处理。如果可以进行有效命名,则说明聚类效果较好,反之则说明聚类分析结果较差,应该返回第二步重新选择聚类类别数量,找出更优聚类结果。
第四步:聚类类别命名。完成第三步聚类效果判断后,已经确认聚类类别数量情况,以及每个类别命名情况。此步骤更为深入分析各个类别的特点,尤其针对于某类别样本在某聚类变量上的突出特点,最终对聚类类别进行命名,结束聚类分析。
SPSS在线_SPSSAU_SPSS聚类分析
SPSS在线_SPSSAU_分层聚类