推荐系统业务评估指标如何定义
来源:夏唬人
大家好,我是 策略产品夏师傅 。
(资料图片)
今天跟大家聊聊推荐系统当中的业务评估指标如何制定。
我面试的时候也会问这个问题,很多同学在这块会搞混,很多人会回答:精确率,召回率,AUC这些?
这些确实是衡量推荐模型本身的一些指标,为什么说这些回答本身也没有大问题?我们先来看看用模型的方式去解决问题的思路:
在问题建模阶段,其中就有一项就是关于评估指标的确认,这块主要是用来反映模型本身的效果,通常来说就是刚才说的精确率,召回率,AUC这些。
而这些指标通常是算法工程师比较关注的,那么很明显这个问题关键在于业务评估指标怎么定义,所以就应该更多的从产品,业务的角度去思考。
像搜索推荐这种策略性产品,业务评估是一项必须要做的事情。通过业务评估的方法,发现当前策略中存在的问题点,对于优先级比较高的问题以需求和项目的方式推荐,这是策略产品经理主要工作之一。
在之前的文章当中,我不止一次提到过策略是业务的策略,撇开业务谈策略都是耍流氓,因此对于推荐策略的评估也需要区分不同的业务场景。
今天我会给大家讲一下当前比较主流的三大类业务的推荐系统的业务评估指标。
01 内容类场景
内容是一种比较常见的推荐结果形式,我们常说的内容不仅仅是指文字,还包括像音频,短视频,直播等新型的内容形态。
除了像今日头条,抖音,腾讯新闻,微博,知乎这类应用存在大量的内容推荐策略,其实诸如淘宝,京东等电商业务也有很多的内容个性化应用。
最新改版的淘宝,首页推荐feed流里面就包含了大量的内容推荐结果,而且还把“逛逛”内容社区搬到了第二个TAB上。无一例外,这些内容的背后都是无数个性化内容推荐策略运作的结果。
一般我们在评估类似这种内容场景下的推荐策略的时候,相比转化,我们更注重用户对 内容信息的消费效率 。因此对于这类型场景下的推荐效果我们更应该采用信息维度的指标去进行评估。通常包括如下几个:
点击数 :内容被点击的人数和次数
CTR :内容的曝光点击率
停留时长 :用户在内容feed,内容详情页的停留时长
阅读深度 :用户对内容的浏览层级,通常通过单次浏览页面的个数来衡量
上面这些指标通常是对内容类推荐场景下的策略效果进行业务评估使用的指标。
02 交易类场景
交易类场景则比较好理解,典型的比如淘宝,京东首页的猜你喜欢,为你推荐中的商品feed。因为推荐的结果就是商品,所以此时推荐系统的目标就是让用户在该商品上进行下单,转化。
很明显的一个流程就是:商品推荐位-商品列表页/详情页-购物车-提交订单页-支付完成页。
相比内容类场景下,推荐系统注重对内容信息的消费效率,在交易类场景下,推荐系统则更关注用户在此场景下产生的订单量,订单金额。
所以对这类场景下推荐策略效果进行业务评估时,常用的指标有:
CVR :订单曝光转化率
CTR :点击曝光转化率
订单量 :由对应推荐位带来的订单量
订单金额 :由对应推荐位带来的订单金额
支付率 :从提单到支付的完成率
加车率 :从商品详情页到购物车的转化率
交易类场景上面五个是比较通用的,可以看出来交易类场景基本以当前场景为平台带来的收益为主。
03 体验类场景
最后一个则无论是在内容信息,还是在交易成交类场景下都需要关注的:体验类场景。
相比上面的两大场景,我们可以用客观的数据来进行衡量,体验类场景则略带主观。
因此在进行综合评估之前,通常需要认为制定一套团队公认的评估标准,以指导体验场景下对推荐策略好坏的评估。
虽然需要人为制定评估标准去规范整个评估的流程,但并不是说体验类场景没有对应的评估指标。下面几个是常见的几个指标:
主动负反馈率 :用户主动反馈不感兴趣的比率。
品类多样性 :衡量推荐结果的丰富度
用户满意度指数 :通过case评测的方法来综合评定策略的满意度
上面三类就是对推荐策略常见的三种业务评估指标,还是那句话撇开业务谈策略是耍流氓,同样对于不同场景下的推荐结果的评估也需要制定不同的评估标准和指标。
当然在实际应用的时候,场景大多数情况下不是单一的。比如淘宝首页推荐feed流,有商品,有内容,也有短视频等,所以很多时候我们要综合考虑多场景的评估。
以上希望能给你带来启发。