6.8.1 找到因子和因子的关系

6.8.1 找到因子和因子的关系

在使用构造法设计公式的时候,重点是要找到因子与因子之间的关系,即找到下述三个问题的答案。

●最终结果与哪些因素正相关?

●最终结果与哪些因素负相关?

●影响最终结果的不同因素之间的权重排序如何?

其中,目标结果指的是构造法公式的最终输出,影响最终结果的一种或多种因素称为变量,也就是函数的输入,即我们要构造这样一个函数表达式:

F(因素1,因素2,因素3,…,因素n)=目标结果

本节主要以笔者实际工作中的真实案例为引子来介绍相关知识点,项目背景是对漫画连载产品做推荐策略,策略上将用户已阅读漫画和未阅读漫画分别召回。此时的问题是,对于用户已阅读漫画而言,应当如何度量用户真实的喜欢程度呢?

第一步是进行数学化表达,即理解“问题是什么”并做出逻辑化的表达,分析哪些是已知项,哪些是未知项。

●已知数据(输入):(用户ID,漫画ID)级别的行为数据,包括但不限于用户浏览行为、关注行为、登录行为等。

●未知数据(输出):用户已知漫画的阅读满意度得分,即输出为(用户ID,漫画ID,满意度得分)。

●数据限定范围:对用户已阅读漫画进行计算,对其他情况不需要计算。

第二步是设计思路,我们的思路是在模型数据不充裕的前期,可以使用构造法度量已阅读漫画的阅读满意度,并设定该数值与用户满意度正相关,即:满意度越高意味着用户对于该作品的兴趣越强,满意度越低意味着用户对该作品的兴趣越低。

第三步是寻找影响变量,在本例中即哪些变量会最终影响阅读满意度。实际上有很多办法可以度量用户对于看过的作品的满意度。

●阅读时长:该因素是一个正相关因素,一般来说用户对一部漫画的阅读时长越长,对其的满意度越高。但单独使用阅读时长存在一些问题,阅读时长和作品题材有较大的关系,不同题材之间的阅读时长做比较是不公平的,比如推理类漫画中嵌字较多,而少女漫画中大多数以唯美剧情为主、字数较少,后者的用户阅读速度往往较快。

●阅读百分比:该因素是一个正相关因素,但单独使用时会存在问题。比如对于总长度只有5话的作品,用户阅读1话的阅读占比为20%,而另一部漫画一共有50话,用户阅读10话,阅读占比也是20%,但很显然用户对于后者的喜欢程度更深,但阅读百分比却相同。

●阅读总章节数:该因素是一个正相关因素,但也并非是十全十美的。对于连载作品而言,比如目前,《海贼王》的章节数已经接近1000话,用户阅读了其中的10话显然与另一部只有20话总长度的作品阅读相同章节数的权重是不同的。另外存在一个问题是,如果只使用阅读行为,有可能存在“数据污染”,比如用户误操作却被计入了阅读行为等。

●有效阅读章节数:这是对于阅读章节数的一个有效改进。其可以由客户端上报用户在某部作品章节下的最大浏览进度,来定义某个比例以上的阅读进度为有效阅读,此时会减少边界情况,比如用户误操作行为等,但仍然无法单独使用。

●主动行为:主动行为可以表征用户对该连载作品的喜爱程度,是一个正相关因素。比如用户关注了该漫画或者多次打开该漫画,或者每一次登录都第一次搜索该漫画并点击到主页。这些行为无一例外地提升了该漫画在用户心中的满意度。主动行为的问题主要在于用户行为十分稀疏。

●具体操作的时间戳:只以用户的关注行为度量用户对某漫画的喜欢程度是不充分的。比如用户365天以前关注的一个作品而最近300天都没有重新翻看,此种情况下即使有关注行为,也必须要和时间有相关性才可以。另外,并非所有用户都有关注漫画的习惯,用户会经常使用“浏览历史”进入阅读,也是要考虑的。

●连续阅读行为:用户的阅读行为能释放很多信息,对于剧情连续的连载漫画而言,连续阅读行为是最佳行为。用户从第1话开始阅读,分别看了第2话、第3话乃至最新话,是连续阅读;也可能存在跳跃着看漫画的行为,数据分析发现此比例并不低。如果用户的阅读章节是跳跃的、不连续的,应该在最终的得分策略上有所体现。

●有效阅读的具体章节位置:基于对漫画业务的理解,大多数漫画的世界观与情节交代在相对靠前的位置,如果用户看过前几话则说明用户对该漫画的理解更深刻,掌握了更多的信息。另外,如果用户的阅读章节是跳跃的、不连续的,跳过中间章节的用户回顾比跳过两端章节的用户回顾的难度更大。

第四步是权重比较,将第三步找出的变量做比较。笔者所用的方法是“控制变量推演”,只保留两个变量,其他变量全部相同,反复权衡以下问题。比如,“一个用户阅读了30行,每一行的阅读率均为100%,阅读时长为15秒”和“一个用户阅读了30行,每一行的阅读率均为50%,阅读时长为30秒”,哪种情况会代表用户更喜欢这部漫画?第一种行为可能代表着用户快速从头到尾浏览了一遍,第二种行为可能代表着用户慢速浏览,但都没有看到底部。在这个例子中,第一种行为下的阅读进度的权重高于阅读时长权重。

也可能存在相近的情况,比如,“一个用户阅读了30行,每一行的阅读率均为100%,阅读时长为15秒”和“一个用户阅读了30行,每一行的阅读率均为80%,阅读时长为30秒”,后者的阅读比例从50%调整到80%时,第二种行为可能代表着用户大多数都看到了底部,并且停留了较长时间,且80%和100%已经差异不大,所以第二种行为的阅读满意度得分应该更高,可以得出权重条件为当阅读比例均超过80%时,阅读时长的权重更高。(预期的数据趋势是可以通过公式设计体现的,比如分段函数的形式。)

使用以上方法进行权重之间的反复推演,得到因素之间的权重排序,再使用该排序构造公式。下节将介绍公式设计的一些基本方法。

上一章 封面 书架 下一章