Machine Learning Design Patterns
《机器学习设计模式》 介绍非常实用的机器学习设计模式
- 哈希特征 # 为了降维,避免特征的不存在值
- Embedding # 降维,可训练
- 特征组合 # 线性化
- 多模输入 # 文本,图像,表格化数据
- 目标分箱 # 转化回归问题为多分类问题
- 多标签 # 可重叠
- Ensembles # Bagging, Boosting
- Cascade # 问题拆分
- 默认类 # 训练时添加默认target
- 重平衡 # 采样(过/欠),加权,分类转化为异常检测
- 利用过拟合 # 问题不存在衰减,不需要泛化,可以拿掉正则等防止过拟合的手段
- Checkpoint # 训练中设置检查点
- 转移学习 # 大规模预训练,成熟模型结果复用
- 分布式 # 梯度可并发
- 超参调优 # 手动,网格,自动化
- 无状态服务 # 有监督基本都是无状态的,除了KNN,Graph
- 批服务 # 分布式,多样本同时预测,spark,
- 连续模型评价 # 生产模型持续评价,更好的标签收集方式
- 两阶段预测 # 解决移动端问题
- 含Key预测 # 超大样本预测结果的映射问题
- 特征转化 # 特征的处理完全和模型分离
- 可复现数据分割和采样 # 保证复现
- 桥接模式 # 数据格式变化,保证模型连续服务
- 流式推断 # 用最近2h数据训练模型预测接下来1h
- Pipeline # 全流程化CICD,mlflow, prefect, kubeflow…
- 特征存储 # 中间表,重训练,需要保证特征工程解耦
- 模型版本 # 版本控制
- 启发式模型 # 构建一个初始模型,来辅助优化模型的结果评估
- 可解释性 # SHAP
- 公平性 # 政治正确
Written on February 7, 2022