Machine Learning Design Patterns

《机器学习设计模式》介绍非常实用的机器学习设计模式

哈希特征 # 为了降维，避免特征的不存在值
Embedding # 降维，可训练
特征组合 # 线性化
多模输入 # 文本，图像，表格化数据
目标分箱 # 转化回归问题为多分类问题
多标签 # 可重叠
Ensembles # Bagging, Boosting
Cascade # 问题拆分
默认类 # 训练时添加默认target
重平衡 # 采样（过/欠），加权，分类转化为异常检测
利用过拟合 # 问题不存在衰减，不需要泛化，可以拿掉正则等防止过拟合的手段
Checkpoint # 训练中设置检查点
转移学习 # 大规模预训练，成熟模型结果复用
分布式 # 梯度可并发
超参调优 # 手动，网格，自动化
无状态服务 # 有监督基本都是无状态的，除了KNN，Graph
批服务 # 分布式，多样本同时预测，spark，
连续模型评价 # 生产模型持续评价，更好的标签收集方式
两阶段预测 # 解决移动端问题
含Key预测 # 超大样本预测结果的映射问题
特征转化 # 特征的处理完全和模型分离
可复现数据分割和采样 # 保证复现
桥接模式 # 数据格式变化，保证模型连续服务
流式推断 # 用最近2h数据训练模型预测接下来1h
Pipeline # 全流程化CICD，mlflow, prefect, kubeflow…
特征存储 # 中间表，重训练，需要保证特征工程解耦
模型版本 # 版本控制
启发式模型 # 构建一个初始模型，来辅助优化模型的结果评估
可解释性 # SHAP
公平性 # 政治正确

Written on February 7, 2022