在上一篇文章里,我们介绍了瑟斯顿和扎克伯格使用成对比较法解决多个对象偏好测度的问题。那么传统的打分方式的问法到底存在什么问题,而成对比较法是否也有不足之处呢?
打分评测方式的主要问题:
在上一篇瑟斯顿和Facemash的故事里,我们提到了他们都意识到传统的评分方式在评价多个对象时的不足之处。这种不足体现主要体现在三个方面。
先看看通常的打分方式对不同对象评价的例子,通常的问题类似这种样子:
打分方式的第一个不足之处在于,我们会受到受访者使用量表习惯的影响。有些受访者总是倾向于打高分(或打低分)。再如有些人会有意识地使用1-5分中的各种分值,而有些受访者则仅仅使用少数几种分值。尽管这看起来的确揭示了受访者的某些个性,但这种尺度使用上的“个性”对分析人员而言可不是福音。如果是一个涉及到多个地区/国家的研究,我们往往还会发现不同地区或国家的受访者在使用打分尺度上存在着很大的差异。
其次,受访者还会以不同的方式理解量表的含义。有些受访者会将这种量表理解为一种等比的形式,譬如4分的重要性是2分的两倍,有些受访者可能会将这种量表理解为有序的形式,即4分优于2分,但并不认为4分是2分的两倍。这使得这种打分评价答案的数据特性并不适合进行一些统计分析,例如方差分析,回归,聚类,因子分析等。对于受教育程度较低的人群或儿童来说,他们很难理解这种量表的意义。下面这个小漫画很形象的描绘了尺度使用的差异性。
最后,也是最重要的一个问题是,打分方式得到的结果在被测的各个对象上缺乏差异,尤其是当测度的对象较多时。感受一下一个较多属性的重要性测量题目,以及我们经常看到的结果(见下图):
当然,也可以采用排序或者定和分配(Constant Sum)的方法来进行测量。这样做的确可以解决一些上面提到的问题。但是当需要测量的对象很多时,无论是排序或者定和分配仍然会变得很困难,很难想象受访者能在几十个对象中进行正确的排序或定和分配。因此这两种测量方法的使用仍然受到一定的条件限制。
成对比较方法的优缺点:
这个系列第一篇里瑟斯顿和扎克伯格使用的成对比较法可以简单的表述如下。
假设我们有很多个对象,我们可以让其中两个对象PK,看看人们会偏爱哪一个。
每次PK后,我们会再引入另外两个对象进行PK,并且依次进行很多轮的PK。这有点像体育比赛里的循环赛,每两只队伍都要交手一次。
假设有4个对象: A, B, C, D。那么一共有6种可能的成对比较:
(这里假设A vs. B与B vs. A是等价的,如果把这4个对象想象成球队,也就是说A和B的比赛是在中立的场地,因此可以忽略各自的主场优势)。
更一般的,假设有t个对象,那么对应有t(t-1)/2个可能的成对比较。
但是问题又来了,假设需要测量10个对象,那么理论上需要进行45次成对比较。似乎太多了点?是不是我们一定要遍历完成所有可能的成对比较呢?
赫尔伯特.大卫(Herbert Aron David)在上世纪60-70年代在瑟斯顿的工作基础上对多重成对比较方法进行了大量的研究和发展,并提出了成对比较法的环状设计(cyclical design)。他发现,通过环状设计,只需要进行1.5t次成对比较就可以收集足够的信息进行模型估算。下图是一个6个对象的环状设计示意图:
这张示意图表达了9种成对比较:AB, BC, CD, DE, EF, FA, AD, BE, CF。也即只需要进行这9种成对比较,就足够进行一些模型运算以计算每个对象的偏好度了。可以看到,在环状设计里,尽管没有遍历所有的成对比较,但是每两个对象之间都存在直接或间接比较(例如B和F虽然没有直接比较,但是我们可以通过A/C/E这些“桥梁”进行间接比较),我们把这种现象称为具有连接性。通常我们都期望所选取的成对比较具有连接性这个特征,以保证我们获得更准确的对象间比较信息。
但是细心的读者会发现,即便使用环状设计,还是需要完成很多次的成对比较(如下图所示)。
当有20个对象需要评价时,环状设计需要进行30次的成对比较;而当需要比较的对象达到50时,环状设计需要进行75次成对比较。这对受试者来说无疑仍是不小的挑战。那么还有更有效的方法么?
答案是:有的!
Jordan Louviere在上世纪90年代初介绍了一种被称为 “最大差异测量” (也被称作“最好/最差测量”) 的新方法。其做法是让受访者从一组对象中指出能表明最大差异偏好的对象。例如受试者需要在几个对象中同时选出“最好的”和“最差的”。这种方法既保留了成对比较法的优点,又极大程度地改进了成对比较法的效率。我们将在下一篇文章中介绍给大家。