Machine Learning Design Patterns

《机器学习设计模式》 介绍非常实用的机器学习设计模式

  1. 哈希特征 # 为了降维,避免特征的不存在值
  2. Embedding # 降维,可训练
  3. 特征组合 # 线性化
  4. 多模输入 # 文本,图像,表格化数据
  5. 目标分箱 # 转化回归问题为多分类问题
  6. 多标签 # 可重叠
  7. Ensembles # Bagging, Boosting
  8. Cascade # 问题拆分
  9. 默认类 # 训练时添加默认target
  10. 重平衡 # 采样(过/欠),加权,分类转化为异常检测
  11. 利用过拟合 # 问题不存在衰减,不需要泛化,可以拿掉正则等防止过拟合的手段
  12. Checkpoint # 训练中设置检查点
  13. 转移学习 # 大规模预训练,成熟模型结果复用
  14. 分布式 # 梯度可并发
  15. 超参调优 # 手动,网格,自动化
  16. 无状态服务 # 有监督基本都是无状态的,除了KNN,Graph
  17. 批服务 # 分布式,多样本同时预测,spark,
  18. 连续模型评价 # 生产模型持续评价,更好的标签收集方式
  19. 两阶段预测 # 解决移动端问题
  20. 含Key预测 # 超大样本预测结果的映射问题
  21. 特征转化 # 特征的处理完全和模型分离
  22. 可复现数据分割和采样 # 保证复现
  23. 桥接模式 # 数据格式变化,保证模型连续服务
  24. 流式推断 # 用最近2h数据训练模型预测接下来1h
  25. Pipeline # 全流程化CICD,mlflow, prefect, kubeflow…
  26. 特征存储 # 中间表,重训练,需要保证特征工程解耦
  27. 模型版本 # 版本控制
  28. 启发式模型 # 构建一个初始模型,来辅助优化模型的结果评估
  29. 可解释性 # SHAP
  30. 公平性 # 政治正确
Written on February 7, 2022