推荐

推荐

2018年1月,字节跳动于北京召开了一次公开会议,向公众透露了他们算法工作的细节。会议上,字节跳动高级算法架构师曹欢欢详细介绍了推荐系统的运行原理。我们接下来就对他的演讲进行一些分析:

字节跳动的系统以三种概要为中心:内容概要、用户概要和环境概要。为说明内容概要,曹欢欢提到了一篇关于英超利物浦和曼联足球比赛的新闻,以此为例。关键词是通过自然语言处理技术从文章中提取的,在本例中是“利物浦足球俱乐部”“曼联足球俱乐部”“英超”,以及比赛中几个关键球员的名字,如“大卫·德赫亚”。

接下来,系统会给关键字指定相关性程度值,在上面这个例子中,“曼联足球俱乐部”是0.9835,“大卫·德赫亚”是0.9973,都是相关性很高的词条。内容概要还包括文章发表的时间,这有助于系统计算文章何时过时并停止推荐。

用户概要则是基于很多信息来构建的,包括浏览历史、搜索历史、使用的设备类型、设备位置、年龄、性别和行为特征。系统会基于社会数据和用户行为挖掘,将用户划分为成千上万个不同类别,并构建不同的用户档案。

当你阅读平台推荐的帖子时,它会通过跟踪你的行为来了解你的偏好:你选择阅读什么,你选择拒绝什么,你花了多长时间在一篇文章上,你评论了哪些文章,你选择分享哪些故事。

最后,环境概要是基于用户消费信息时身处的地点所构建的,比如在单位、在家中,或在地铁通勤期间,毕竟人们的偏好因所处情况不同会有所变化。其他环境特征包括天气,甚至用户互联网连接的稳定性,以及他们使用的网络(例如Wi-Fi或中国移动4G)。

系统会计算内容概要、用户概要以及环境概要之间的最佳匹配度,从而提升文章的点击量以及阅读量(也就是用户在文章页面的停留时间)。

在这个内容分发过程中,系统会根据每一篇新发文章的质量以及其潜在读者群体量,为该文章分配一个“推荐值”。推荐值越高,就说明接收到这篇文章的读者越有可能感兴趣。同时,在用户和文章交互的过程中,推荐值也会实时变化。积极的互动如点赞、评论和分享会增加推荐值;消极的行为如点踩和阅读时间短会降低推荐值。随着内容逐渐过时,推荐值也会随着时间的推移而降低。像体育以及股票价格这种价值周期短的新闻类别,只是一两天时间推荐值就会大幅下降。而对价值周期更长的生活方式、厨艺等类别,推荐值下降的时间就会相对漫长。

推荐给新用户的前100篇文章十分重要,数据显示在第100篇文章后,用户留存率开始明显下降。这一数据就像夜空中的“北极星”,确定并量化这一关键指标,与早期脸书网团队专注于让新用户在10天内增加7个好友的做法不谋而合。据脸书网前副总裁查马斯·帕利哈皮蒂亚说,脸书网早期团队只在意这个增长指标,“别的什么都不关心”。字节跳动在这一方面所做的努力,带来了高达45%的留存率,与主流社交网络的联系更加紧密,同时其产品也是世界上用户平均使用时间最长的应用程序之一。

这一核心系统最开始用于今日头条的文章推荐,后来稍加升级运用在了TikTok和抖音的短视频推荐上。所有这些应用程序都使用相同的字节跳动后端推荐引擎系统。视频推荐就更难了,因为上传者往往没有提供关键字标签或准确的标题和描述,所以对系统来说,判断视频的具体内容是一项巨大的挑战。

依靠推荐来提高用户黏度的好处在于,随着时间的推移,它可以创造一个不断改进发展的良性循环,通常被业界称为“数据网络效应”。人们使用应用程序的时间越长,用户档案就越丰富,系统也就能提供更准确的内容匹配和更好的用户体验。自然而然,人们也会因此把更多的时间花在应用程序上,用户资料又进一步丰富,不断循环发展。

虽然这种良性循环效果很棒,但也不可能永远持续下去。用户体验的改善速度刚开始很快,但随着时间推移,用户资料越来越丰富,系统所画的用户兴趣图谱就变得越来越详尽和准确,改善速度会变慢。

字节跳动这套系统还有一个局限,那就是人工必不可少。虽然他们一直声称自己是纯技术驱动的公司,不再对内容进行人工编辑,但这种说法多少还是有些误导人。这套系统依然十分依赖人工操作,需要一大帮工作人员来执行一些基本的重复性任务,比如标记要点文章和手动检查内容,这些任务也对机器学习有帮助。能够准确提取关键词条对于推荐技术非常重要,但光靠自然语言处理技术,机器学习也只能走到这儿了。

再者说,无论字节跳动的推荐系统多么准确,只是比竞争对手拥有更好的产品还远远不够。如果要迅速扩大今日头条的用户群,并将公司的估值提高到一家独大的水平,字节跳动团队必须掌握一门暗黑艺术:成长黑客。

上一章 封面 书架 下一章