淘宝用户购物行为数据集
这个博客后续会编写一系列推荐系统相关的文章,从数据安全的角度,为了避免使用公司内部的数据,我们将会采用公共的数据集进行讲解,这里我们将介绍第一份数据,也就是阿里巴巴提供的淘宝用户购物行为数据集 UserBehavior 。UserBehavior 是一份公开数据集,包含了 2017 年 11 月 25 日至 2017 年 12 月 3 日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢),用于隐式反馈推荐问题的研究。
数据概述
将数据集下载解压后可以看到,整个数据集只有一个文件 UserBehavior.csv,数据的组织形式和 MovieLens-20M 类似,即数据集的每一行表示一条用户行为,由用户 ID、商品 ID、商品类目 ID、行为类型和行为时间...
机制参数中指数项的作用
背景
对于大部分的广告或推荐算法团队而言,都会通过模型对每个商品计算出一个 CTR 打分和 CVR 打分,然后将这两个模型的打分综合起来计算一个排序分数 RankScore,最后按 RankScore 倒排序阶段一定数量的商品送入重排。
在推荐场景下,RankScore 的计算公式一般为
\[RankScore = ctr^{ctrPow}*cvr^{cvrPow}*price^{pricePow}\]
因此可以近似地认为 RankScore = GMV Score,而在广告场景下,需要考虑广告出价,因此一般会加上一个 cpmScore 和 GMV Score 的权重,也就是
\[RankScore = ctr^{ctrPow}*bid + gmvWeight * ctr^{...
淘宝用户购物行为数据集
这个博客后续会编写一系列推荐系统相关的文章,从数据安全的角度,为了避免使用公司内部的数据,我们将会采用公共的数据集进行讲解,这里我们将介绍第一份数据,也就是阿里巴巴提供的淘宝用户购物行为数据集 UserBehavior 。UserBehavior 是一份公开数据集,包含了 2017 年 11 月 25 日至 2017 年 12 月 3 日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢),用于隐式反馈推荐问题的研究。
数据概述
将数据集下载解压后可以看到,整个数据集只有一个文件 UserBehavior.csv,数据的组织形式和 MovieLens-20M 类似,即数据集的每一行表示一条用户行为,由用户 ID、商品 ID、商品类目 ID、行为类型和行为时间戳...