700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 智能(个性化)推荐系统全流程落地实施方案

智能(个性化)推荐系统全流程落地实施方案

时间:2018-09-17 14:11:45

相关推荐

智能(个性化)推荐系统全流程落地实施方案

目录

一、整体流程

二、离线部分

2.1 数据收集

2.2 内容画像

2.3 用户画像

2.4 召回

2.4 排序

三、实时系统

四、评估系统

一、整体流程

本文地址:推荐系统全流程落地实施方案

从以下一张总体脑图开始:

整体上分为三个阶段:离线计算、推荐结果的实时获取、推荐结果的评估。

二、离线部分

离线计算是推荐系统的核心部分,涉及从数据收集、内容画像、用户画像、召回、排序几个关键环节,这几个环节也提现出,推荐的本质是进行内容和用户的匹配。

2.1 数据收集

核心工作概括如下图所示:

需要收集的数据有两大类:用户行为数据和内容本身的描述数据。前者可以反映用户对于内容的偏好程度,后者可以对内容本身做画像。

数据收集的更新频率根据推荐系统整体的时效性来定义,也会受限于资源成本考量。

2.2 内容画像

内容画像部分解决对内容的描述问题,在推荐模型中如何理解一个内容。有了内容画像,可以计算内容之间的相似性。有了相似性就可以出基于内容的推荐策略。这是在冷启动期用户行为数据有限时很有效的推荐方式。

内容画像的生成,会用到关键词生成算法(TextRank*IDF),补充增加一个选词标准,比如TOP10。为了更能区分一个内容相对其他内容的差异性,还会用到主题词模型(一种方式是使用TextRank&TFIDF)。

通过用户画像可以计算相似内容了,即两两内容之间的相似性。

方法是:

1. 由主题词生成主题词向量,word2vec常用的算法,定义一个内容的所有主题词向量的均值作为内容的向量。

2. 两两计算相似度。数据量小时,可以全量计算,量大时可以采用一些优化算法,分类别、LSH等。

2.3 用户画像

解决内容的向量化描述之后,接下来利用行为数据对用户做画像。

前述用户行为数据,实际上是用户与内容的互动关系,根据业务领域知识,定义一个评分规则,即行为转化成对内容的评分,形成用户评分表。通过用户评分表反映了每个用户对每个内容的偏好程度,借此对每个用户的评分内容做个排序,选取主题词作为用户画像中的主题词列表。

2.4 召回

召回实际上是一个海选的过程。召回方式有很多种,也是推荐系统中算法模型最丰富的部分。

召回最后的输出是一个用户推荐的内容列表。

冷启动召回,基于内容本身的特性进行选择,与特定用户没有直接关系,但有可能有间接关系,比如基于他最近访问的内容直接找相似内容。

多路召回,会开始关注用户行为数据或者说用户画像了。基于历史喜欢的内容,ALS,协同过滤都是常用的模型。

2.4 排序

排序是一个精选的过程,进一步优化推荐质量。

算法模型是关于点击率预测方面的。有LR回归、Wide&Deep、深度学习。

三、实时系统

就工程实践而言,一个完整的推荐系统包括推荐模型运算,也必须要有接入产品的实时推荐结果输出系统。推荐结果可以保存在Hbase这种大规模、易扩展的存储系统中,借助缓存技术、rpc技术得到最大的吞吐量。

四、评估系统

评估系统是进行推荐模型迭代优化的基础条件。

事前的样本评估,事中的AB实验,事后的问卷调查。通过这些来指导模型的优化路线,获得更高的产品效果(比如转化率、活跃度等)。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。