数据准备通常可以分为四个紧密衔接的部分:数据收集、数据清洗、特征工程和数据集划分。它们在实际项目中往往相互影响、反复迭代,共同决定模型能否被有效训练。特征工程则是把原始数据转化成更适合学习任务的特征表达,在传统机器学习中,其质量往往比模型选择更能决定最终效果。
1. 机器学习数据准备
- 数据准备的四大部分:数据收集、数据清洗、特征工程、数据集划分
- 数据清洗的定义与一般流程(数据理解→质量检查→缺失处理→异常处理→去重→标准化→输出)
- 数据准备的简化案例:从学生成绩表到可训练数据
2. 特征工程基础
- 特征质量评估:有信息、少噪声、符合模型假设
- 特征数量权衡:欠拟合风险 vs 过拟合与维度灾难
- 特征工程对模型的作用(提升信噪比、赋予非线性能力、优化数值稳定性、语义对齐)
- 特征工程的标准执行流程(数据理解→特征构造→特征变换→特征选择→特征评估)
- 特征构建案例:游戏商城皮肤购买预测
3. 特征构建与编码
- 特征构建概述(从原始数据到数值向量)
- Echo Nest 音乐推荐系统的特征构建实例
- 隐式反馈量化与对数缩放
- 余弦相似度计算
- One-Hot 编码:基本概念、为什么不用直接编号、优点、缺点
4. 特征变换与规范化
- 归一化(Min-Max Normalization)及其鲁棒性问题
- Z-Score 标准化(Standardization)及形态保留特性
- 数据规范化的模型适用性边界(梯度类模型必须规范化,树模型无需规范化)
- 分箱法/离散化:等宽分箱、等频分箱、自定义分箱
- 分箱后处理与编码(序号编码、One-Hot 编码、均值编码)
- 转换特征构造:单变量变换、多项式特征、组合特征、比率与差值
- 特征变换的深层原理(条件数优化、数值稳定性、正则化公平性)
5. 聚合特征构造
- 定义与核心数学表达(均值、方差、极值、频数)
- 时间窗口聚合
- 电商场景聚合特征构造示例
- 实战流程与注意事项
6. 特征提取与特征选择
- 降维问题的背景(计算复杂度、维数灾难)
- 特征提取 vs 特征选择的核心对比
- 常用特征提取方法(PCA、LDA、SIFT、Word2Vec)
- 特征选择的三大策略:Filter、Wrapper、Embedded
- 模型性能与计算复杂度的权衡
笔记四.pdf