算法“杀熟”机器行为研究与策略改进设计

本研究基于案例分析(case studies)结合日志分析(log analysis)的方法,以国内某生活服务平台的相关数据和算法为基础,在针对机器自主学习与进化进行日常监督的基础上,获取用户在生活网站上消费的全过程流量数据,分析用户消费行为的事件过程,提取行为事件中涉及到的价格,分析不同用户在同一情境下是否存在价格差异现象。

(1)简介

在算法发展与进化造成的不可预知的机器行为中,所谓的“杀熟”是一个广为人知的情境。严格意义上,“杀熟”并不是一个学术概念,而是一个人们可以观察到的现象:两个人同时使用一个平台打车,“熟”用户比“新”用户的价格更高。类似的现象还有很多。例如,在某购物网站上购买同样的商品,苹果系统手机用户要支付比安卓系统用户更高的价格。

出现上述现象的本质原因在于:生活类平台或者网站为了更好为用户服务同时获得更大的商业利益,采用了“差异化”算法策略,即基于用户画像的个性化推送与定价,形成了千人千面的界面、内容与商品价格,而个性化策略不可避免需要其后台算法针对个人的特点进行自身迭代与进化。由于这些迭代与进化并不总是以用户注册时间和使用频率等传统的“熟”的定义为基础,因此,在某些情况下会出现“杀熟”行为。

本研究基于案例分析(case studies)结合日志分析(log analysis)的方法,以国内某生活服务平台的相关数据和算法为基础,在针对机器自主学习与进化进行日常监督的基础上,获取用户在生活网站上消费的全过程流量数据,分析用户消费行为的事件过程,提取行为事件中涉及到的价格,分析不同用户在同一情境下是否存在价格差异现象。若存在价格差异现象,则分析存在差别的原因,确认并修改算法策略,在小范围内验证算法修改后是否仍存在杀熟问题。论文的总体研究框架如下图。

图 1 研究框架

(2)方法与过程

本研究对于“熟”用户比“新”用户的定义基于该生活平台的指标定义,包含两个基本指标:会员身份和消费次数。会员身份依据会员身份强度取值1-3,具体是:1为非会员账号;2为初级会员账号,即开通过会员的用户;3为高级会员账号,即开通过高级会员的用户。消费次数则直接以其次数作为取值。其它的用户信息,如注册时间、手机系统、支付路径等此类信息虽然无法表征用户“新”与“熟”,但在本文中也会作为控制变量进行分析。

本研究的因变量是该生活平台的外卖手机应用配送费的价格差。本研究将相同时间选购了相同店铺的相同外卖、配送到相同地址的数据作为一组,将该组中最低的配送费作为基准,同组的其他数据与最低的配送费的差值作为价格差。因此本研究提出假设:

假设1:价格差与用户会员身份等级存在正相关关系。

假设2:价格差与用户消费次数存在正相关关系。

假设3: 价格差与其它因素不存在相关关系。

本研究获取了该平台2021年若干天中随机抽取的623,973,490条数据进行研究,其中符合相同时间选购了相同店铺的相同外卖、配送到相同地址的有效数据共15,379,468组。

(3)数据分析

针对有效数据的分析,研究发现价格差的取值从0-8.3元不等,这证明算法在复杂的迭代过程中,的确针对不同用户生成了不同的配送费价格。

在此基础上,本研究针对用户的配送费价格差与用户信息的关系进行了多元线性回归分析,如表1。

Coefp95% CI
“熟”与“新”用户信息店铺消费次数0.051**0.007-0.059,-0.047
会员身份等级1.3550.1921.253,1.475
其他用户信息微信支付0.024***0.0000.021,0.033
支付宝支付0.0200.0790.017,0.022
ios系统0.5130.2150.476,0.523
注册时间-0.0810.614-0.088,-0.075
零钱余额0.0430.3110.039,0.052
N 623973490  
R2 0.203 
注:*P<0.05,**P<0.01,***P<0.001。支付路径和手机系统作为虚拟变量参与回归分析。支付路径中,银行卡支付被作为参照变量。手机系统中,Android系统被设置为参照变量。
表1 配送费价格差与用户信息的关系

从上表中可以看出,代表“熟”客的店铺的消费次数与配送费价格差存在正相关关系(coef=0.051,P<0.01),但是会员身份等级则与配送费价格差不存在相关关系(P>0.05)。

在此基础上,本研究对其它的相关因素与配送费价格差的相关关系进行了分析。分析表明:使用微信支付的用户的配送费价格差显著高于使用银行卡支付的用户(coef=0.024,P<0.001)。这说明支付方式与价格差有相关关系。

同时,研究还发现:用户配送费价格差与配送合作方存在强相关关系(r=0.714,p<0.001)。研究作为案例分析,对配送合作方进行了分析。分析发现:由于与不同配送合作方的合作方式、合作成本等存在差异,所以由不同配送合作方提供的配送服务价格会存在差异。企业在经营的过程中,需要做好配送合作方和用户之间的平衡,同时鼓励优质的配送合作方,派送给优质配送合作方的骑手更多的订单。在算法迭代过程中,若平台没有做好用户和配送合作方之间的平衡,导致给熟客提供了配送价格较高的配送服务方,则会在算法迭代过程中无意造成杀熟问题。

(4)算法改进设计

在前面研究的基础上,针对配送合作方的相关算法进行了改进。将订单派送给哪个配送合作方的骑手涉及到了广义的指派问题。目前,外卖订单派单算法的主要目的是使所有订单配送的延误时间最小,则有如下针对最小超时率的目标函数:

其中,f_((i,c) )为订单i实际配送到达时间,di为订单i计划配送的时间(即用户下单之后系统显示的订单预计送达时间),Ω是所有订单任务的集合,n为订单数量。

可以看出,目前的配送算法并未将用户配送费作为目标函数进行优化。在现有基础上,可将配送合作方的配送成本差异作为特征加入算法,将实际外卖配送费与最小超时率同时作为目标函数进行优化,以在迭代求解过程中求得用户最小超时率和实际配送费与店铺消费次数的最优解。新的算法原理如下:

其中,m表示用户的消费次数,u_((m,p))表示用户本次消费的配送费,u_((m-1,p))表示相同条件下用户上次消费的配送费。

在算法修改后,研究选取了消费次数为1-15次的11291名顾客的配送费价格差与店铺消费次数在“新”、“熟”用户两个层次上进行了分析。分析发现:算法改进前,店铺消费次数与配送费价格存在低度正相关关系(r=0.48,P<0.1),这说明出现了杀熟行为。算法改进后,店铺消费次数越多,配送费价格越低(r=-0.85,P<0.01),杀熟行为得到了有效改善。

右图 2 改进前和改进后的算法验证结果

(4)讨论

采用案例结合日志分析的方法对智能系统迭代产生的不可预知结果的分析表明了对于机器行为进化研究的一种实用主义的设计和研究模式。这种模式与第11章中提及的“设计-评估的迭代方法”一样,利用大数据描述的现象以及研究者的“专家经验”,可以直接发现问题,并直接针对问题进行调整和修改,进而在策略层面,提出算法的改进意见和建议。这对于机器行为的设计具有重要的意义和价值。

具体到“杀熟”案例中,算法设计者利用大数据、人工智能等手段为使用者提供了更丰富的产品服务。但是在机器自主进化的过程中,算法设计者应该明确算法应用结果一致性要求,即所有相似的用户经过同样的算法,应该可得到相同的效果——虽然对“相似”的定义是非常有挑战的事情。对智能系统迭代产生不可预知结果的分析保障了算法应用的可验证、公平、诚信,有助于加强对算法应用的有效监管,对智能系统迭代及应用过程中的规则、标准等的制定有不可忽视的作用。

在实际的机器行为中,外卖配送费的生成是一个十分复杂的过程,受到商品类型等诸多因素的影响,本研究暂未对其他控制变量进行全面的讨论。在实践层面,算法设计者应该对算法中定价以及分配策略进行持续改进和迭代以避免产生“杀熟”这样的不可预知的后果。本研究分析所使用的方法为外部对生活网站平台的监管提供了参考,政府监管部门可在本研究基础上扩大监测的用户量和数据量,对各生活网站平台是否存在杀熟行为进行市场监管。