Causal Inference V1

风控背景读因果推断 - 个人总结V1

什么问题

风控是一个典型的二分类问题。相应的输入,输出和算法都比较好理解。

  • 输入就是一组特征,特征是用于描述待预测实体的各种维度的变量。
  • 输出一个是分类结果,也就是有风险或无风险。也可以是一个风险分数,作为预测为有风险的概率。
  • 模型就是对训练集所提供的历史数据和已知标签进行拟合,来预测未来数据的风险情况。

当然风控场景本身还会有各种各样的扩展,泛化和引申。这里先描述风控是因为从一个风控背景的人的认知角度,后面是如何理解因果推断问题的。

分类回归问题为代表的预测问题,其实有一个前提存在,就是特征可以决定结果,而非有其他决定因素或是相互产生影响的关系。而因果推断问题则是除了特征这个固有属性的影响外,“干预”也是其中一个影响。从预测问题的角度,可能“干预”也可以认为是特征的一种,且目前是为了得到结果的正确预测;而因果推断中,需要解决的问题是,对于一个“干预”(或“不干预”),所产生影响的效果的估计,而非结果的预测。

在这个问题定义下,几个核心概念就可以给出了:

  • 单位:干预所施加的对象。
  • 干预:应用在单位上的行为。
  • 干预结果:干预施加在单位上造成的理论结果。
  • 观测结果:干预施加在单位上造成的事实观测结果。
  • 反事实结果:施加其他干预(或不施加)在单位上造成的结果。
  • 干预前特征:与干预无关的变量。通常是单位的固有属性。
  • 干预后特征:与干预有关的变量。通常是中间结果。
  • 实验组:施加了干预的同一组单位。
  • 对照组:未施加干预的同一组单位。

以及三个假设:

  • 单位和干预的稳定性:单位被干预,不受其他单位的影响。一种干预只有施加和不施加,没有量的区别。
  • 可忽略性:相同的干预前特征下,不同单位被施加或不施加一个干预是随机的。
  • 存在性:对于任何的干预前特征值,不会出现一定施加干预或一定不施加干预。

最后是因果推断问题需要计算的干预影响:

  • 平均干预影响 = (实验组的结果 - 对照组的结果)的期望

参考文献

[1] Yao, Liuyi, et al. “A survey on causal inference.” ACM Transactions on Knowledge Discovery from Data (TKDD) 15.5 (2021): 1-46.

Written on August 31, 2023