
“双十一”已经走过了13个年头,,,用户的细腻化运营成为了各大品牌追求业绩增添的主要发力点。。。。。。通过运用合规手段搜集和洗濯用户数据,,,再经由算法加工形成用户画像,,,企业可据此设计出针对用户需求精准推送广告和商品的推荐系统,,,实现所谓的“千人千面”(每个用户看到的购物界面纷歧样)的目的。。。。。。
可是这些推荐系统不少都是基于机械学习算法,,,使用产品评分(即显性反。。。。。。┗蛘叩慊/购置纪录(即隐性反。。。。。。┝街中问降挠没Ы换ナ菥傩醒盗返,,,但由于消耗者在产品接触、购置和宣布评分方面的差别,,,这两种数据都可能保存严重的自我选择误差。。。。。。将带有误差的数据输入推荐系统可能会进一步强化误差,,,并导致建设的模子无法有用地预测消耗者偏好。。。。。。
安博电竞治理科学与信息系统系助理教授王聪及其相助者为此提出了一种旨在去除误差的推荐系统设计方案,,,其效果Training Personalized Recommender Systems with Biased Data被第42届国际信息系统聚会(ICIS)收录,,,实验效果批注:
1.该研究所提出的模子在评分去偏的性能上具有优越性;;;;;;
2.对产品评价高或低的用户倾向于宣布评价,,,而对产品持中性态度的用户宣布评价的意愿则较低。。。。。。由于模子假设缺失的评分往往是较低的分数,,,该研究所提出的要领更善于消除上偏的评分;;;;;;
3.通过与其他多种模子的严酷比照,,,在基于误差和基于排名的测度下,,,该研究提出的要领在用户的评分预测、购置预测方面都优于常用最新模子。。。。。。
01三种误差让明确消耗者“难难难”
凭证消耗者决议行为的相关理论,,,可以归纳出三种类型的自我选择误差,,,即接触误差(exposure bias)、购置误差(acquisition bias)和少报误差(under report bias)。。。。。。
消耗者在自动搜索感兴趣的产品时,,,会有选择地接触差别的产品。。。。。。凭证信息追求中的选择性接触理论,,,在决议历程中,,,人们更倾向于选择性地接触支持其信心、期望的信息情形中,,,由此爆发了接触误差。。。。。。换言之,,,消耗者通常选择性地接触部分产品,,,例如他们以前相识过的产品等。。。。。。
购置误差可以用效用理论来诠释,,,它是说消耗者只购置在他们购置前评价为正净效用的产品,,,换句话说,,,通常视察到的购置数据容易反映出相对较高的效用。。。。。。由于产品评分更有可能是由对产品知足度较高的消耗者评出,,,从而爆发正向的误差。。。。。。
少报误差是由于只有一部分消耗者在购置后会提交评分而形成的。。。。。。凭证消耗者知足度的经典理论,,,消耗者往往只在知足度很是高或很是低的情形下,,,才更倾向于透露自己的意见,,,因此评价会呈双峰漫衍,,,中心数据较少。。。。。。
这三种类型的自我选择行为配相助用形成了被普遍视察到的J形评分漫衍,,,这也说明数据保存显着的偏倚,,,但却常将其作为推荐系统的训练数据。。。。。。详细来说,,,消耗者购置和评分的整个历程,,,三种误差的泉源如下图所示。。。。。。

鉴于上述误差,,,将未做处理的数据用作推荐系统的输入是有问题的。。。。。。然而,,,现在还没有研究系统地思量这三种类型的误差,,,以设计一个可以周全举行去偏的推荐系统。。。。。。
02一个好的去偏模子cover掉三种误差
在推荐系统设计中,,,自我选择误差被视为一个非随机数据缺失问题,,,现有文献主要从联合似然法、插值法和逆倾向评分法三种角度处理推荐系统输入数据的非随机数据缺失问题。。。。。。
联合似然法构建了一个由数据天生和数据视察两部分组成的概率框架,,,即推导了数据天生和视察的联合似然后,,,使用似然最大化预计参数;;;;;;插值法通过用超参数人为地替换未视察到的评分来填充评分矩阵,,,然后凭证完整的评分矩阵来推断参数并最小化预测误差;;;;;;逆倾向评分法通过评估评分视察的倾向(或概率)来最小化评分预测误差,,,但纵然有准确的倾向,,,逆倾向预计工具也可能由于其方差过大而无效。。。。。。
通太过析消耗者在购置和评价阶段的行为,,,王聪教授及其相助者提出了一个统一的天生模子,,,系统地涵盖了三种自我选择误差。。。。。。该模子优化了基于相关消耗者行为理论的评价视察模子,,,然后推导出天生和视察数据的联合似然,,,并将期望最大化算法运用于参数推断,,,同时将盘算举行了简化以提高效率。。。。。。

03为企业提供的启示
该研究网络了来自Yahoo!、Coat和Goodreads三个平台的真实数据,,,其中扫除了自我选择误差的数据(通过要求Yahoo!用户随机选择一些项目举行体验和评分而获得)。。。。。。
研究通过大宗实验来评估所提出新推荐要领的性能。。。。。。效果显示,,,新要领在评分去偏方面简直优于其他基准,,,在预测评分披露行为、预测购置行为方面同样精彩,,,同时,,,该要领更善于消除上偏的误差。。。。。。可以说,,,在种种指标上,,,该研究提出的要领始终优于其他基线要领。。。。。。
总的来说,,,在理论上,,,该研究提出了一个综合的基础评分天生和评分视察历程,,,并对个性化推荐的基础评分举行了预计,,,体现了以内核理论为指导的信息手艺工具设计的主要性;;;;;;在要领上,,,该研究是最早在设计推荐系统模子时同时思量三种类型的自我选择误差的研究之一。。。。。。
本研究为企业提供了一些启示。。。。。。有了更准确的评分预测机制,,,推荐系统就可以提供更准确的推荐,,,这对零售商、消耗者以及平台都是有利的。。。。。。另外,,,由于大都情形下消耗者的误差是正的,,,而该研究提出的要领也更适用于始终为正误差的消耗数据,,,因此该要领可以很好地顺应种种场景。。。。。。
该研究也为以后的个性化推荐事情开发了新的偏向。。。。。。其一,,,是在推荐系统设计中进一步思量其他类型的误差;;;;;;其二,,,未来可思量开发一个标准化数据集,,,用于同时评估隐式反馈和显式反馈的去偏效果,,,其中谈论内容也可以作为去偏历程的主要依据。。。。。。
王聪,,,安博电竞治理科学与信息系统系助理教授。。。。。。于清华大学经济治理学院取得治理学博士学位,,,曾在Carnegie Mellon University(卡耐基梅隆大学)从事博士后研究事情。。。。。。主要学术研究聚焦于机械学习、数据挖掘等手艺要领与治理问题的交织点上,,,凭证差别治理问题需求及其数据特点举行响应的剖析要领设计,,,以提供精准高效的解决方案。。。。。。现在主要关注于电子商务、金融科技、智慧医疗等领域的决议支持要领设计研究。。。。。。
相关链接:
国潮,,,真香!
买它买它!电商促销是怎样俘获你的 | 安博电竞前沿小课堂