本次活动的一大亮点是金枕头奖主办方联合大正市场研究公司在现场发布2015《金枕头酒店体验指数HEI报告》。为了使评选结果更加公正、客观,大正抓取了五大在线旅游网站超过500万条针对参选酒店的评论,设计了一套基于大数据的计算与评选方法,最终形成了独特、科学的“金枕头酒店体验指数”,为本次评选提供了坚实的事实依据。
大正市场研究公司的董事总经理崔大鹏博士对这次评选的数据和算法做了讲解。这次金枕头奖的评选,没有采用传统的问卷调研方式。他认为,第一是问卷调研有一定的引导性,第二是问卷设计人员会有盲点,第三收集问卷数据是一个漫长的过程,第四是即便一家酒店是100%的入住率,那么如何从14亿人中找到这几万人来填写问卷也是一个难题;而在垂直旅游网站上,消费者自愿地在表达对酒店的看法,这些表达里面充满了情感,数据资源非常丰富。消费者都是从个人需求角度评估酒店的,总有你意想不到的地方。对我们而言,垂直旅游网站为酒店评估提供了丰富的数据资源。
崔博士同时强调,这次评选使用的是消费者自由发布的文字评论数据。消费者的评论数据在网上有两种,一种是打分的,对你的卫生情况和地理位置、人员服务等打分,但我们没有使用消费者的直接打分;因为携程上有位置、设施、服务和卫生的评分,但我们不知道服务泛指的什么;另外无法做到把不同网站的数据合并起来;第三每个网站的指标不同,我们没办法梳理,所以这次我们放弃消费者直接在网站上的打分。垂直网站上另外一种数据是文字评论,随便在携程上找个例子说明,文字评论覆盖内容有细节,有画面感,从早餐到艺术品,从电视到床头柜,具有非常丰富的内容。
确定了数据源之后,大正采用了与国外高校研发的、基于计算语言学和Deep Learning算法的语义分析工具来分析消费者评论。整套分析工具已经全部分析工作自动化,包括分词、词性分析、属性提取和属性树归纳、词义判断以及HEI生成。此外,整套分析工具在其它产品品类的分析结果都已经被大量地验证。
本次大数据的应用和分析结果受到了与会嘉宾和酒店高管的一致好评,数据详实、分析严谨、结果有很高的说服力。同时,这次酒店行业第一次大规模应用大数据来做分析,填补了这一领域的空白。
崔博士最后指出,我们研发的算法部分即将在国际一流期刊发表。尽管如此,大数据分析是一个持续进步的过程。我们会持续改善算法的各个环节,而且明年会细化其中一些逻辑,希望做到更准确、更完善。