这一节我们开始详细讲解如何设计MaxDiff。包括如何选择MaxDiff实验设计的参数,如何决定MaxDiff的样本量等实际操作问题以及如何评估一个MaxDiff设计是否良好!
在正式开始之前,我们先定义几个基础术语以便后文的阅读:
对象(Item):
需要在Maxdiff中进行比较的所有对象
任务(Task):
同时出示几个对象进行“最好/最差”的选择题。在这里,我们把每个这样的选择题称为一个任务
MaxDiff问题(MaxDiff question):
由多个Maxdiff任务所组成的一套题目
版本(version):
在具体调研时,我们不会让所有受试者都完成同一套MaxDiff题目。因此,我们会设计多个版本的MaxDiff问题,每个版本对应不同的受访者,以保证更好的随机性质。
MaxDiff的设计步骤
通常的MaxDiff设计步骤可以分为三步。
这里面最关键的是第二步,因为需要确定很多实验设计所需要考虑的参数,这里逐个说明下:
总的对象数目,即我们所有需要比较的对象总数。
每个任务中需出示的对象个数。笔者建议每个任务中出示3-5个对象,这是因为当每个任务里的对象超过5个时,受试者较难准确选出“最好/最差”的对象。比较下面两个任务,一个出示4个对象,另一个出示6个对象,您觉得哪个更容易完成呢?
每个MaxDiff问题需要包含的任务数量。理想状态下,我们希望在单个受试者层面的结果都尽可能的准确。为此,当受试者完成所有任务后,每个对象应至少出现了3-5次,那么可以很容易地推导出任务数(t)的公式:
根据这个公式,我们可以很容易的编制一套任务数量的对照表,以便于我们在不同条件下快速确定所需要的任务数量:
例如,假设我们在MaxDiff中总共有8个对象(属性)需要比较,而且每个任务里出示4个对象,那么理想情况下,我们需要设计6~10个任务。
n即样本量。确定样本量大小的因素有很多,这里我们只谈谈针对MaxDiff这种特殊设计所涉及的样本量的考虑,至于其他一般性的基于抽样误差和非抽样误差的影响因素,这里就不赘述了。
Richard Johnson曾在1996年曾提出一种联合分析样本量的估算法,即必须满足每个属性水平(MaxDiff的各个对象)出现在MaxDiff里的总次数不少于500次。即
假设单个受访者层面上每个对象出现至少3次(mt/K=3),那么我们需要的最小样本量为167(=500/3)。从实际角度说,一般如果能够保证个体层面每个对象出现3次的话,样本量设为200是一个比较可行的选择。当然,如果为了进行一些分组分析或人群细分分析,我们需要确保每个组别或每个细分人群都能满足上述条件,假设最终的细分群为4-5个,且我们需要比较这些细分群之间MaxDiff计算结果的差异,那么相应的样本量应该是800-1000。
最后,还有一个参数需要注意一下,这个参数是MaxDiff问题的版本数。
版本数越多,我们可获得的比较信息越全面,因为每个人回答的 MaxDiff问题是不尽一致的,而且能使得实验设计更为均衡。但是,过多的版本数也没有必要。一般来说,通过计算机辅助的访问(无论是线上还是线下),可以将版本数控制在100-300,如果是纸笔问卷形式的访问,一般控制版本数4-10。
每个版本对应的样本数量不需完全一致。因为通过统计软件设计出来的每个版本的MaxDiff问题从统计学角度看都是等价的,但这只是一种“锦上添花”的行为,即便不完全满足,也影响不大。如今的调研越来越多的是计算机辅助的线上和线下调研,每个受访者完成的Maxdiff版本是随机派发的,这样就保证每个版本对应的样本数都非常接近。
讲到这里,大家可能会发现一个问题,当对象数目较多时,MaxDiff的任务数也变得很多,而且考虑到每个MaxDiff问题比直接比较和打分评测要更难一些,必然导致访问时间延长和受访者的疲惫及反感。那么是否一定要问那么多的任务以保证每个对象至少出现3次呢。答案是不一定,最近5年,有不少学者提出了一些很好的解决方案和思路,我们会在后续文章里单独予以介绍。
在设置好上面谈到的第一步和第二步确定的相应参数后,我们可以利用一些专门的软件生成实验设计和问卷。例如SAS,R等,但其中最权威,功能最丰富,最容易使用和最快速的软件无疑是SawtoothSoftware的MaxDiff模块。
在SawtoothSoftware里,你只需要输入对象列表,以及第二步谈到的诸多参数,软件就会自动生成设计和问卷(R和SAS等其他纯数学统计类软件仍需要将实验设计矩阵导出到其他软件里再编辑为问卷)。
SawtoothSoftware的在线问卷设计和分析平台Discover(http://discover.sawtoothsoftware.com)在未来还将推出MaxDiff问卷设计工具,届时大家不用安装软件,直接用浏览器访问这个平台就可以定制自己的MaxDiff问题,发布问卷及在线分析MaxDiff数据了。
MaxDiff实验设计优劣判断标准
一个良好的MaxDiff实验设计应该满足以下4个条件。
以上这4个条件实际体现了两个核心要素------公平和效率。保证公平是为了测度结果准确,保证效率是为了节省时间和精力,两个都达到,就是“又快又准”。大家只要记住这两点就够了,这是实验设计最关键的统计思想。
被测对象出现的频率均等(FrequencyBalance):
从测量误差的角度上说,如果不满足这个条件,将会导致“出镜率低”的对象的测量误差增大。这类似两个运动员比赛投篮,A运动员的成绩取其10次投篮的命中率,而B运动员取其2次投篮命中率,这显然容易导致不合理的结果出现。因此应该让A运动员和B运动员投掷相等的次数,然后再比较命中率的高低。
两两对象同时出现的频率一致(Orthogonality):
这也是为了公平起见。我们在成长的过程中,往往都存在着一类特殊儿童—“别人家的孩子”。这些孩子品学兼优,多才多艺,身强体壮。家长往往拿自家孩子和“别人家的孩子”对比。自家的孩子经常会产生一种不公平的感觉。
这实际上就是一种家长对比孩子时两两对象比较频率不均等的现象。只有既把自己的孩子和特殊儿童对比,又和其他普通孩子比较,才能看到自己的孩子的真正位置。专业术语称这种特性为“正交(Orthogonality)”,当满足这个条件时,其设计矩阵里任意两列的乘积和恰好为0。这种正交性的好处在于可以准确估计每个对象的主效应(排除其他对象影响后的每个对象的自我效应)。有兴趣的读者可以找一些实验设计方面的书籍看看。
每个对象在MaxDiff题目中每个位置出现的频率相等(Positional Balance),是为了消除位置因素导致的影响。人在观察事物时,眼睛扫描对象存在一定的方向倾向,第一眼看到的内容的印象往往更加重要。所以,排在不同位置的对象往往会受到这种被关注次序的影响。比如体操比赛中,往往第一个上场的选手得分偏低。而在一些商业竞标中,第一次序出场的竞标者可能会得到更多的青睐。
所有对象均可“相连接”(Connectivity),我们曾在这个系列的第二篇介绍环状设计的成对比较时有过介绍。这实际指的是成对比较信息的可传递性问题。假设我们有只有2个Maxdiff问题,题目一需要你在A/B/C/D中指出“最好/最差”的对象,题目二需要你在“E/F/G/H”中指出“最好/最差”的对象。这时你会发现你无论如何也无法推算诸如A vs E的比较信息,因为第一题中4个对象的比较关系无法和第二题中4个对象的比较关系建立任何“连接”。
最后,我们回顾下上面提到的洗发水包装MaxDiff例子设计特性。这里我们有8种外包装类型,每个任务里出示4种外包装,总共6个任务(每个对象出现4X6/8=3次)。我让SawtoothSoftware的MaxDiff模块总共产生100个版本的MaxDiff问卷。假设这100个版本的问卷分别交由100个人完成,那么,其实验设计的检验表如下:
可以看到,上面这个MaxDiff的试验是非常好的,它满足了我们上面谈到的所有要求。
下一篇里,我们将会介绍一些MaxDiff问卷里的一些其他需注意问题,以及如何收集和分析MaxDiff数据。