第3章 信贷分析秘密武器——Cohort分析
统计学家是下一个性感的工作。
——Google首席经济学家 哈尔·瓦里安
在信贷过程中,人们常常会使用很多分析方法,如在获客阶段使用漏斗分析、在审批阶段使用交叉验证分析、在存量阶段使用RFM分析[1]、在贷后阶段使用VINTANGE分析等。在统计学课程“试验设计”中,对各种正交设计、区组设计、饱和设计、超饱和设计、参数设计、回归设计、均匀设计等随机试验的数据提供了相应的统计分析方法[6],这些方法可估算不同影响因子的效果。在信息技术中,A/B测试用于选择不同的页面设计、流程设计等达到客户体验最好;而在风险管理中,模型或规则的挑战者和冠军之间的对比测试是根据其效果来决定是否采用挑战者模型或规则,同时模型或规则本身涉及很多方法,如Logistics回归、优化算法等。这些方法受到重视并不断优化,但要分拆出时长效应、时期效应、同群(Cohort)效应并估计它们具体的效果,通过上述方法是无法彻底解决的,而这3种效应将贯穿信贷始终,估计这3种效应需要应用同群分析(Cohort分析)。
Cohort分析可以帮助风险管理人员理解不同效应变化的根源和性质。Cohort的含义包括军队、同伙、共犯等,也有翻译为“世代”的。例如,於嘉将“Cohort Analysis”翻译为“世代分析”[7]。无论如何翻译,这些翻译都无法达到其意境,“世代”翻译为英文是“age”或“generations”,正如Kosei Fukuda[8]所说,“generations”和“cohort”是不完全一样的,而根据《韦氏词典》,“cohort”具有如下含义:①一群或簇;②联合会;③任意一组士兵;④一个帮凶或共犯;⑤一群具有特定统计学意义或人口学特征的人;⑥生物学上,同一物种的一群人中的个体。这里Cohort的意思是“一群具有特定统计学意义或人口学特征的人”。为了保证相关含义的完整性,这里我们直接用“Cohort分析”这个名称。
Cohort分析的定义:对人群、物或主题在特定时期内具有相同经历的结果进行分析。例如,在电商中,可应用Cohort分析对同一天或同一周引入新用户后续转化的分析,评估出时长效应、时期效应、Cohort效应。其中,时长就是物或人为得到相关服务或成为企业/组织/客户的时间长度,如为一个用户服务的时长就是以用户注册、下单时间为标准,自用户注册或下单的时间点开始计算,到统计分析时间点为止,两个时间点之间的间隔;时期是结果产生的日历时期,如都是在2016年10月成为某企业或组织的客户;Cohort是一群具有特定统计学意义或人口学特征的人,一般以时间起点为唯一变量(时间长度相同,其他条件也相同)的用户群。
截至2020年11月24日,通过百度学术可以查到“Cohort analysis”在2000—2020年共有约3.85万个相关文献,如图3-1所示。但99%的文献主要集中在医学、生物学、药学、心理学、教育学以及数学等方面,而经济、金融方面的文献相对比较少,占比约为1%。但这不代表Cohort分析在经济、金融方面不重要,在人口学、社会学、经济学和金融学都会遇到个人或群体的时间序列数据,各种现象中的时长效应、时期效应、Cohort效应的变化如何,对于相应的专家或研究者、实践者来说都是非常重要的。
图3-1 Cohort分析在经济、金融方面的文献比较少
本章主要介绍Cohort分析在经济、金融,尤其在风控中的应用。但是,为了更好地理解Cohort分析,我们先从理论上对其进行阐述与说明。
Cohort分析在市场运营中的应用,主要体现在Kosei Fukuda[8]使用Cohort分析并提供一些证据来说明时长效应和Cohort效应上。这对于市场研究具有重要的影响,为了分析出相应的效应,相应的数据结构和数据监测在初始阶段就需要做好准备。例如,利用Cohort分析可以衡量客户参与情况是否变好,基于注册或进入时间来对客户进行分组,从而比较不同时期进入客户的参与情况,同时可以从参与度中拆分出增长率,这对于运营来说非常重要,因为增长很容易掩盖参与问题。
对于衡量广告、营销效果来说,Cohort分析也是一种有效的方法。一般对广告、营销效果的衡量,主要以在广告或营销之前30天内的平均量作为基准,自广告或营销开始到结束当天的平均量与基准进行比较,高出某个设定的预期值就认为比较好。但是,这样不能确认到底是自然流量带来的增长,还是广告或营销带来的增长;也不能确认广告或营销带来的客户参与度如何,更不能给出哪些营销策略需要改进,以及改进的方向。Cohort分析可以分拆出时长效应、时期效应和Cohort效应,加上广告或营销时期与非广告时期的比较,从而判断广告或营销效果。当然,也可比较不同营销策略下的客户参与情况,从而判断哪些营销策略是有效的,以及不同营销策略的可改进之处。
对于现金流、收益来说,Cohort分析也是一种有效的方法,可以判断现金流是否来自我们相关产品或重点产品,以及看到不同年龄层的客户对公司的利润贡献度并及时调整战略。
对于产品、技术来说,Cohort分析也是非常有效的方法,可识别出在上线新版本的前后客户留存情况,以及对公司现金流、利润贡献度等变化,从而判断是否采用新技术。
很多“互联网+”相关的企业为获得风险投资(Venture Capital,VC)/私募股权(Private Equity,PE)的青睐,花了很多钱拉“新”——通过营销运营手段获得新客户,如通过“注册就送100元”“注册就获加息券”的活动获得新客户。在此,同时虚拟成立的两家互联网保险公司,分别是Y和Z,它们都拥有2000万户的注册客户,客户平均保费1元/单,理赔率都为75%,投资收益都是10%,它们是一样好吗?
表3-1和表3-2所示分别为Y和Z的注册客户及投保的转化情况,这是虚构的数据表。
表3-1 Y的注册客户及投保的转化情况
由表3-1和表3-2可知,Y和Z两家保险公司拥有相同的客户注册数,但第1个月的成功投保客户数分别为1755万户、1950万户,这说明Z的注册投保转化率高,即从这个角度来看,Z更好;注册后第2个月的成功投保客户数分别为1120万户、1791万户,以及留存率分别为64%、92%,这说明Z的留存做得很好;注册后第6个月的成功投保客户数分别为50万户、560万户,以及留存率分别为50%、93%,Z在留存方面做得非常好。
表3-2 Z的注册客户及投保的转化情况
然而,实际上,Z在新增客户方面做得不如Y,而Y的留存客户做得不如Z。作为风险投资/私募股权,如果一定要在两者中选择其一的话,Z是优于Y的,因为在一家早期公司,产品和客户留存的重要性是优于其他的。如果留存做得足够好,只要公司掌握或采取恰当的运营方式,那么就能够厚积薄发;反之,如果只有增长、没有留存——典型的“狗熊掰棒子”,就很可能永远都抓不住客户真正的痛点,最后什么都没有。
使用Cohort分析剖析数据主要分为两步。第一,需要制作Cohort表,就像表3-1和表3-2的结构一样。表中第一列应以研究目的为核心,选择时间维度所对应的月份或周进行排列。如果所做的表是给投资人看的,那么时间长度一般以月为单位比较合理;如果只是用于企业自己进行监控,那么以周为单位更加合理,这是因为以周为单位的数据更加敏感,同时保证了稳定性,而以月为单位的数据稳定但敏感性不足,以天为单位则过于敏感而缺乏稳定性。表中第二列对应每个自然月的新增客户数或金额,右侧的表格为当月新增的客户数或金额在后续每个月的留存情况,如表3-1中第1个月Y新增客户数100万户,在当月流失了5万户,剩余95万户,在第2个月又流失了5万户还剩下90万户,以此类推,最终客户将流失殆尽。第二,基于Cohort表进行分析,主要可以进行横向比较分析和纵向比较分析。横向比较分析主要可以看出相应企业或组织的每月新增客户数在后续各月的留存情况,而纵向比较分析可以看出不同月份新增客户数,分别在当月、下个月、下下个月等的留存表现如何。
因此,不同企业通过Cohort分析会看到不同的趋势和问题。以表3-2为例,从横向比较分析来看,其留存数据最终会在某个月份之后停留在一个固定的留存率上,如某个月获取的600万客户,在半年后每个月的留存率都稳定在92%左右,这就说明这批客户对企业具有黏性,能够稳定留存下来,否则企业的留存率是一直下降的,哪怕流失的速度很慢,客户也会在未来某个时间点流失殆尽。也就是说,不管新增多少客户,最终也会没有客户的。从纵向比较分析来看,其留存数据应该是越来越好的,因为公司应该不断地根据历史情况改进产品、提高客户体验等,所以往后加入的客户将享受到更好的产品和服务,拥有更好的体验,后续几个月的留存率就应该呈上升趋势。
通过以上横向比较和纵向比较以及表格中的数据可以看出,Z还可以做得更好,因为它每个月的留存率相对稳定,而每个月的新增客户数有所下降,这可能是市场容量有限等原因造成的。对于风险投资/私募股权来说,这样的分析结果是非常好的,因为他们能够非常清晰地看到每家企业的问题和机会,从而做出更加有利的选择和决策。
在金融及经济中,Cohort分析就更能显示自己的价值。例如,在股票中,金融分析师可以通过Cohort分析,分析出不同行业之间的时长效应、时期效应和Cohort效应,从而找到不同行业之间的差异,也可以分析同一行业中不同企业之间“三效应”差异。
Claudio Sapelli[9]基于智利1902—1978年的收入,利用Cohort分析研究收入分布的进化情况,将这种进化分解为Cohort、年龄和年的效应,主要采用基尼系数(Gini index)和泰尔指数(Theil index)来衡量收入分布,并以基尼系数和泰尔指数来观察Cohort效应的趋势,发现在开始时上升,而后下降,最后发现教育平均水平和离散度都不能很好地解释Cohort效应。后续他将数据分成了3个时间段,通过回归分析发现,收入分布的进化中上升的部分可以通过教育及相关变量解释,下降的部分可以通过经验来解释。Cesar G Victora等[10]研究了低收入或中等收入国家中食物和营养不良对人力资源及成人疾病的影响。
Erica Segall[11]认为购物模式随时间发生变化有很多潜在的解释,但多少是时长造成的,多少是历史的特殊时点或环境造成的,要分解不同的效应,来帮助我们看到购物模式与年龄或时长、消费形成和偏好方式的关联,而且分析长期消费模式中的这些效应,我们可以区分出不同的趋势,有助于了解客户的情况。Erica Segall将APC模型和需求模型相结合,发现Cohort效应显著提高了需求模型的预测能力,结果显示不同时期出生的人形成Cohort偏好将影响人一生的购买偏好,而且一些事件对人的影响效果是非均匀的。
在此,更值得关注的是,Cohort分析在风险管理中的应用。在信用分析过程中,尤其是贷后管理,Vintage分析是关键。在审批阶段,同一个月或周的进件在未来一段时间内逾期率如何变化,而每个月或周,相应的审批政策或信贷政策都会发挥不同的作用,这些政策对逾期率的影响到底有多大?Vintage分析更多的是趋势分析和判断,而不能比较准确地判断时长效应、时期效应、Cohort效应,不够细化而造成策略制定和应对措施的不足。正如Merijn Bosman[12]所说,当从Cohort分析的视角来审视Vintage分析时,Cohort分析可以通过拆分时长效应、时期效应、Cohort效应来增进Vintage分析过程,分别量化出时长效应、时期效应和Cohort效应,有助于信贷负责人更好地理解信贷的历史表现和预测未来的发展趋势。