上一节我们介绍了多个对象评价的现状和问题,并且介绍了成对比较方法及其优缺点。这一节我们将正式介绍下Maxdiff技术,它是成对比较的一种优化和改进。
Jordan Louviere在上世纪90年代初介绍了一种被称为 “最大差异测量” 的新方法,这种方法是对成对比较法的一种大幅度改进。其做法是让受访者从一组对象中指出能表明最大差异偏好的对象。例如受试者需要在几个对象中指出“最好的”和“最差的”(或者“最重要的”和“最不重要的”等等)。这种方法名为Maximum difference scaling,通常被简称为MaxDiff。
在具体介绍之前,先看看下面这个简单的MaxDiff问题:
在这里,受试者需要指出“最重要”和“最不重要”的因素。那么,为什么需要同时指出“最重要”和“最不重要”的因素呢?
这是因为这么做可以使我们更快速,更高效地获得所需要的成对比较信息。
现在考虑一个一般的情形,假设我们要对四个对象(A/B/C/D)做出比较。如果沿用成对比较的思路,那么总共有6种可能的成对比较,分别是:
如果采用Maxdiff的问法,假设某个受访者认为这4个对象中A是最好的,而D是最差的。我们那么我们可以很容易且快速地得到以下结论:
这里,受访者仅仅通过两次“点击”(一次选出最好的,一次选出最差的),我们就能获得所有6对可能的成对比较中的5对比较的结果(仅有B和C的关系未确定),即两次点击获得高达83.3%(=5/6)的成对比较信息量。相比传统的成对比较方式,我们一共要比较6次,每次成对比较仅获得16.6%(=1/6)的全部比较信息量。由此可见,MaxDiff的效率比成对比较高出太多了。在上面的购车考虑要素的例子中,我们通过MaxDiff方法,在一个题目中就可以从所有10对可能的成对比较中获得7对(70%)的比较结果。从这个角度看,Maxdiff极大程度的提升了成对比较法的效率,成对比较法所导致过多比较的缺点得到一个有效的解决方式。
但是有细心的读者又会发现,在上面的MaxDiff问题中,仍有少部分的比较信息是没有获得的(例如B和C的比较信息),难道这部分信息我们就不需要测量了么?
我们当然不会放弃获取这些未确定的比较信息,但是我们通过一个巧妙地方法来解决—多次测量。在MaxDiff中,我们不会仅仅只问一个MaxDiff问题,而是问多个类似的问题,例如在购车因素例子里,我们总共会问12道这样的题目,每次出现的5个属性不尽一致。这样一来,单次MaxDiff问题未能确定的某些对象间的比较信息就可以从其他的MaxDiff题目中获得,而单次测量中已经确定的比较信息会通过多次测量获得更稳健的结论,从而使得我们获得的比较信息量的测量误差更小。
讲到这里,我们不妨综合比较下打分评测,环状成对比较和Maxdiff的效率。
假设有n个对象需要测量,Maxdiff题目每次呈现其中的5个对象。同时,为了实现多次测量以降低测量误差的目的,Maxdiff题目不止一个,而是3n/5个,这样可以保证每个对象在所有的Maxdiff问题中至少出现3次。
我们首先看看成对比较和Maxdiff所需完成的题目数量:
可以很明显的看到,Maxdiff所需的题目数量比环状设计成对比较所需要的题目少很多,甚至少于传统打分评测。
需要注意的是,在回答传统的打分评测以及成对比较的每道题目时,受试者只需要给出一个答案,如果是网络问卷的话,即只需要鼠标点击一下就完成一道题目。而MaxDiff的每道题目上,受访者需要给出两个答案,鼠标需要点击两下。因此,还需要对比下完成相应题目所需要的点击次数。
从点击次数上比较,完成Maxdiff题目的点击次数略高于传统的打分评测,但是优于环状设计的成对比较。当然,在样本量较大时,我们无需严格满足Maxdiff中每个对象至少出现3次的要求。这时,无论Maxdiiff的题目数还是点击次数都会低于传统的打分评测。这涉及到一些试验设计和模型运算方面的考量,我们会在后续文章中做进一步的介绍。
最后,我们还可以看看环状设计的成对比较和Maxdiff题目实际可获得的直接成对比较信息量的大小。还是假设有n个对象需要测量,Maxdiff题目每次呈现其中的5个对象,MaxDiff问题数目为3n/5个。不难得知,环状设计的成对比较总共会产生1.5n个成对比较,并且获得1.5n个直接比较的结果。而MaxDiff每个题目获得7个成对比较结果,总共获得7x3n/5=4.2n个直接比较信息。
以上这些比较发现,特别是最后一点,让我们非常惊喜。这意味着平均而言,Maxdiff用更少的题目,更少的回答,获得了接近3倍于环状设计成对比较的信息量。这种结果使我们后续的模型估算建立在更多,更准确的比较信息上,其稳健性和精度都得到了极大的改善。更为重要的是,这种时间和精力的大幅节省使得我们可以将MaxDiff方法推广到更一般的场合,以在某种程度上替代传统的打分的测量方式。
我们来看一个完整的Maxdiff的例子:
假设我们有某个产品(例如洗发水)的8种外观设计,我们这里用X1-X8和外观图片来表述。我们希望通过MaxDiff的方式来进行测量,看看消费者会最喜欢哪几种外观设计。那么我们会设计以下6个MaxDiff问题来让受访者做出回答。
在这6个Maxdiff问题,可以看到每次只显示其中4个进行测量。但是,我们并不是每次随便地从8个外观中抽取4个进行测量。可以看到,每种外观设计都出现了3次,而且每个外观设计几乎均等的出现在每个位置上。这种设计实际上类似于实验设计中的平衡不完全区组设计(Balanced Incomplete Block Design,简称BIBD)。
通过这种巧妙地设计,我们既能获得单组MaxDiff测度不到的未确定对象比较信息,又保证了比较信息的稳定性(多组测量,且每个被测对象出现次数均等,位置随机),而且这种数据便于我们使用不同的统计方法进行分析,可谓一石多鸟。最重要的,这种方式使得受访者更容易理解和做出判断,试想一下子同时展示给你8个外观设计进行打分评价,还是很不容易完成的。
大家可以实际做一下这个Maxdiff的测试,http://survey.diagaid.com/Survey/SawtoothDemo/Maxdiff/DemoMaxdiff1/login.html
可能有读者又会有问题了,为什么这里需要问6个MaxDiff问题?每个问题里是只能出现4个对象还是可以更多?是否每个人都要完成一模一样的一组MaxDiff问题?
关于这些更进一步的细节,我们将在下一讲详细介绍!