最大差异化测量（MaxDiff）中属性很多时的处理技巧_新闻中心

网站公告

大正对中国本土市场有着长达22年的深入洞察和理解，并且积极引进和开发国际上先进的研究方法和技术，为企业提供深入契合其业务问题的研究服务。大正的目标是成为一家在消费者生活洞察和市场策略等方面，基于领先的数据模型与数据分析技术的市场研究和咨询机构。

联系方式

联系人：傅彦
电话：021-64737716
邮件：research@diagaid.com
手机：021-64737716-112
传真：021-64737020

站内搜索

友情链接

首页 > 新闻中心 > 最大差异化测量（MaxDiff）中属性很多时的处理技巧

新闻中心

最大差异化测量（MaxDiff）中属性很多时的处理技巧

发布时间：2018-03-14 浏览次数：361 返回列表

自从JordanLouviere在上世纪90年代初介绍了一种被称为 “最大差异测量” 的新方法后，测量人们对多个对象的偏好进入了新的篇章。尤其在最近10年，越来越多的商业客户尝到了这种方法的甜头。其结果有两个，一方面我们在越来越多的研究中见到了这种方法的应用；另一方面，越来越多的客户有过度使用该方法的趋势。特别是后面这点，用于评测的对象数量从十个左右，逐步上升到几十个，甚至上百个（例如一些复杂产品的功能和特征，例如汽车，手机等）。而这里带来的一个无法回避的问题，即越多的对象必然导致越多的题目需要被回答以确保试验设计的有效性，而我们的评测者往往无法忍受这种冗长和非常类似的重复性问题。

业界的学者也在一直关注这问题，并且提出了一些不错的方法，我们在这里介绍比较流行的几种方法。在正式介绍之前，我们先回顾下传统的MaxDiff需要每个评测者完成的题目数量及每个题目中需要评估的对象数量。设计参数如下图所示：

K代表总的对象数目，即我们所有需要比较的对象总数。

M代表每个任务中出示的对象个数。笔者建议每个任务中出示3-5个对象，这是因为当每个任务里的对象超过5个时，评测者较难准确选出“最好/最差”的对象。举个例子，比较下面两个任务，一个出示4个对象，另一个出示6个对象，您觉得哪个更容易完成呢？

t代表每个MaxDiff问题需要包含的任务数量。理想状态下，我们希望在单个评测者层面的结果都尽可能的准确。为此，当评测者完成所有任务后，每个对象应至少出现了3到5次，那么可以很容易地推导出任务数(t)的公式：

根据这个公式，我们可以编制一套任务数量的对照表，以便于我们在不同条件下快速确定所需要的任务数量：

例如，假设我们在MaxDiff中总共有8个对象（属性）需要比较，而且每个任务里出示4个对象，那么理想情况下，我们需要设计6到10个任务。

但是如果我们有50个对象需要评估，每个题目中出现4个对象，那么原则上说我们需要评测者至少完成38道题目，这似乎太多了些。

当然，我们也可以稍微放宽下准则，比如允许每个对象在所有问题中至少出现2次（而非3次），那么，对于50个评测对象而言，评测者需要回答的题目数量可以下降到25个。这样看来好了很多。

但是如果有60，80，乃至上百个属性呢，那么上述的放宽准则的方法也无能为力了。这时必须考虑一些更有效率的方法来简化，尽管可能会牺牲一些准确性。

Express MaxDiff

在针对大量对象评估时，有学者提出了一种称为ExpressMaxDiff的替代方案。与传统的MaxDiff不同，Express MaxDiff会首先从所有对象中进行随机抽样，随机抽选出一些对象作为某个评测者需要回答的对象，而没有被抽中的对象则不会出现在题目中。然后，对于抽中的对象，再按照经典的MaxDiff实验设计原则进行设计（即满足每个对象在所有题目中出现均等的次数，且不同对象同时出现的频次也均等（正交性））。

这样做的好处在于，一方面可以缩减每个评测者需要评测的对象总数，降低评测时间和测试者的疲劳度；另一方面可以在总样本层面满足每个对象出现次数均等的要求。当然，其缺点在于，每个评测者的评测不是基于全部对象，而其没有看到的对象的偏好分数是从其他看到过这些对象的评测者推算出来的。而推算往往会在偏好的预测中引入误差。

我们用一个简单的例子来解释这种方法：

假设有60个对象需要评测，对于评测者A，我们先从60个对象中随机抽取30个对象。然后根据这30个被抽中的对象进行MaxDiff试验设计并让评测者进行评估（每次评估5个对象）。对于评测者B，我们也从60个对象中随机抽取30个对象，然后同样按照传统的MaxDiff试验设计进行下去。依次类推。

这样设计的话，每个测试者只需要完成3* 30 / 5 = 18个题目即可，而全对象的MaxDiff则需要完成3 * 60 / 5 = 36个题目。

至于抽取30个对象还是20个对象，需要结合样本量考虑。如果样本量越大，那么我们随机抽取的数量可以少一些，而如果样本量越小，则我们随机抽取的对象需要多一些。具体的尺度把握，可以通过产生一些模拟设计来检验，从而确定最合适的抽取数量。

Sparse MaxDiff

SparseMaxDiff走了另一种极端，它将每个对象在所有题目中的出现次数下降到1次。假设有60个对象需要评测，每道题目出现5个对象进行评估，那么Sparse MaxDiff只需要设计12道题目，即满足每个对象在12道题目中仅出现1次。这样一来，相比传统的MaxDiff，数据显得更为稀疏，每个对象的多次测量实际已经不存在了。

Express MaxDiff和Sparse MaxDiff的比较

以上两种方案，各有优劣。概括来说，ExpressMaxDiff能控制被测度对象的测量误差（因为每个测试者实际看到的对象能至少保证出现多次），但是每个人所面临的是全体对象的子集，在个人水平上，存在缺失数据的问题。Sparse MaxDiff倒是能保证每个对象都有出现，但是被测度对象的测量误差难以控制（毕竟每个对象仅出现1次）。

那么究竟这二者哪个更好呢？另外，这二者计算得到的结果和传统MaxDiff结果相比，是否差异很大呢？

国外的研究学者做了一些比较测试，其做法是随机抽选3组测试者，第一组测试者完成传统的MaxDiff测试，第二组测试者完成Express MaxDiff，第三组完成Sparse MaxDiff。然后计算MaxDiff得分，并且比较三种方法得到的结果的相似度。

KeithChrzan（2015）还用实际研究数据同时做了Express和Sparse MaxDiff的复原试验，即用HB（分层贝叶斯方法）估计出来的效用值作为“已知”真实的效用值，加上一个现实的响应误差，产生Express和Sparse问题的模拟回答。并且分别计算总体层面上和个体层面上已知效用和估计效用之间的相关性，他发现总体层面上这两种方法都很好，相关性都很高；但个体层面上Sparse比Express MaxDiff更好。

从国外此类比较研究的结果来看，三种方法的结果相似度非常高，MaxDiff得分的相关度往往都达到0.95以上的相关度。另外一个结论是，SparseMaxDiff的结果甚至稍好于Express MaxDiff。这个发现让很多研究者非常吃惊，因为从直觉上讲，Express MaxDiff能更好的控制被测对象的测量误差，且整个过程似乎更“科学”，而Sparse MaxDiff似乎过于简单了。如果这个结论真的成立，岂不是意味者我们可以大幅度缩短MaxDiff问卷的长度。

笔者也通过实际项目进行了一些不同的探索。与国外学者的独立样本组比较不同，笔者采用一种混合方式。在这个研究中，总共有45个对象，每个评测者要回答21个题目(Task)，每个题目(Task)有5个对象。为了比较Sparse和Express MaxDiff与一般的不作处理的MaxDiff之间的差异，分别做了两种问卷设计，如下图所示。第一种问卷设计中有9个题目是Sparse MaxDiff，12个题目是Express MaxDiff，然后将这21个题目随机混合。第二种问卷设计就是一般的MaxDiff，这里我们称之为Full Design，也是21个题目，每个题目有5个对象，这样每个评测者平均看到每个对象 2.33次。研究中共有853个评测者，让其中408个评测者回答第一种问卷，剩下的445个评测者回答第二种问卷。数据收集之后，再将分别属于Sparse MaxDiff、Express MaxDiff、Full Design的数据分离，分别运用HB方法进行估计

混合MaxDiff实验设计

在总体层面上，即得到所有评测者在这45个item上的平均效用值，我们可以计算Sparse MaxDiff、Express MaxDiff、Full Design这三种方法得到的平均效用之间的相关性。

结果如下图所示。可以看到用这三种方法得到的平均效用相关性非常高：Sparse MaxDiff、Express MaxDiff和Full Design之间的相关性均达到了0.976，Sparse和Express之间的相关性高达0.9858。从总体层面上看，这三种方法得到的平均效用差异不大，统计上差异也不显著（P值接近1）。因此，如果只需要样本层面的平均效用，这三种方法得到的估计效果是差不多的。但相比Full Design的21个task，Sparse只用了9个问题，Express也只用了12个问题，说明Sparse、Express MaxDiff在解决大量对象比较的情况下估计效果也很好，并不比Full Design差。

不同MaxDiff实验设计的相关系数

这个发现对市场研究领域来说是非常有用的，它表明当有很多对象时用SparseMaxDiff就可以达到很好的效果。比如在这次研究中，当你有45个对象需要了解消费者在这些对象上的偏好时，用Sparse MaxDiff只需要设置9个问题，这样每个评测者只需回答9 x 2 = 18次，与传统设计所需要的42（21 x 2）次相比减少了五分之三，但是得到的估计结果却很好，这样既减少了评测者的负担，又提高了回答质量。

在个体层面上，我们可以对比Sparse和Express MaxDiff得到的效用值。计算每个评测者回答Sparse和Express问题得到的效用值之间的相关性，得到结果下图所示。

Sparse和Express MaxDiff效用值相关系数分组

如果将相关系数划分为7个区间，可以看到在408个评测者中，有150个（37%）评测者的相关系数在0.5以下，258个（63%）评测者的相关系数在0.5以上，平均相关系数仅为0.54。而总体层面上我们得到的高达0.9858，为何个体层面上的相关系数如此低呢？

笔者将相关系数小于0.5和大于0.5的评测者，从拟合优度、MaxDiff问题用时角度进行了对比，结果如下表所示

评测者分组拟合优度和用时对比

可以看到，相关系数小于0.5的评测者，在拟合优度、用时上都明显小于相关系数大于0.5的评测者，尤其在用时方面差异很大。相关系数小于0.5的评测者，在每个task上的停留时间平均为8.5秒（179 / 21 ≈ 8.5），而相关系数大于0.5的评测者，每个task上平均停留时间为15.5秒（325 / 21 ≈ 15.5），约为前者的两倍。由此可看出，导致个体层面上Sparse和Express之间相关性低的原因很有可能是由于部分评测者没有认真回答问题导致，这也是可以理解的。

为排除用时短的评测者对整个估计结果的影响，对相关系数大于0.5的评测者重新运用HB进行估计，计算个体层面上Sparse和Express得到的效用值之间的相关性，结果表明，重新估计之前和之后的相关系数相差不大，重新估计后的平均相关系数为0.768，与之前的0.763相比并没有提高多少，拟合优度也相差不大，说明即便在37%的评测者没有认真作答的情况下，HB的估计结果还是比较稳健的，认真作答的评测者的偏好效用估计并未受到被不认真作答的评测者的“污染”。

未来的研究方向

尽管这篇文章介绍了一些关于MaxDiff优化方法及其实证比较，但是我们让然缺乏足够的证据来说明Sparse MaxDiff和Express MaxDiff的优越性，因为实际采用了这些方法的研究仍然不多。我们希望更多的同仁能在实际项目中有目的地进行一些有趣的设计来进一步验证Express及Sparse MaxDiff的优劣。

我们也看到了SparseMaxDiff替代传统矩阵打分题（Gridrating question）的潜在可能性，而矩阵打分题往往是很多多元分析的基础（例如Factor analysis，Driver analysis，Clustering…），如果矩阵打分题能被Sparse MaxDiff所替代，那么MaxDiff分数的优良统计特性（更加差异化，尺度型或可比型数据类型）将进一步提高我们传统多元分析的质量。

目前我们的担心主要在于Sparse MaxDiff在个体层面的回答存在较大方差，因为每个评测者只需要接触每个对象一次，如果评测者未能认真的作答，则其拟合似然度会比较低。但是，传统的矩阵打分题也存在同样的问题，甚至有可能更为严重，只不过我们没有像本文介绍的方法那样对测试者回答的一致性进行量化验证。所以也希望有同仁能在有机会的情况下通过合理的设计来评估矩阵打分题的回答有效性和一致性。我们也欢迎在这方面做出比较研究的同仁能分享相关结果。

最后，特别感谢郑文芳同学在实习期间参与撰写了文中的部分内容。

上海大正市场研究有限公司

消费者生活洞察和市场策略等方面，基于领先的数据模型与数据...

Express MaxDiff

Sparse MaxDiff

Express MaxDiff和Sparse MaxDiff的比较

未来的研究方向

友情链接：