《特征工程入门与实践》简介:

特征工程数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的特征,为进一步解释数据并进行预测性分析做准备。

本书囊括了特征工程的全流程,从数据检查到可视化,再到转换和进一步处理等,并给出了大量数学工具,帮助读者掌握如何将数据处理、转换成适当的形式,以便送入计算机和机器学习流水线中进行处理。后半部分的特征工程实践用Python作为示例语言,循序渐进,通俗易懂。

• 识别和利用不同类型的特征

• 清洗数据中的特征,提升预测能力

• 为何、如何进行特征选择和模型误差分析

• 利用领域知识构建新特征

• 基于数学知识交付特征

• 使用机器学习算法构建特征

• 掌握特征工程与特征优化

• 在现实应用中利用特征工程

《特征工程入门与实践》摘录:

特征理解:学习如何识别定量数据和定性数据。 特征增强:清洗和填充缺失值,最大化数据集的价值。 特征选择:通过统计方法选择一部分特征,以减少数据噪声。特征构建:构建新的特征,探索特征间的联系。 特征转换:提取数据中的隐藏结构,用数学方法转换数据集、增强效果。 特征学习:利用深度学习的力量,以全新的视角看待数据,从而揭示新的问题,并予以解决。

《特征工程入门与实践》目录:

前言
第1章 特征工程简介  1
1.1 激动人心的例子:AI驱动的聊天 1
1.2 特征工程的重要性 2
1.3 特征工程是什么 5
1.4 机器学习算法和特征工程的评估 9
1.5 特征理解:我的数据集里有什么 12
1.6 特征增强:清洗数据 13
1.7 特征选择:对坏属性说不 14
1.8 特征构建:能生成新特征吗 14
1.9 特征转换:数学显神通 15
1.10 特征学习:以AI促AI 16
1.11 小结 17
第2章 特征理解:我的数据集里有什么 19
2.1 数据结构的有无 19
2.2 定量数据和定性数据 20
2.3 数据的4个等级 25
2.4 数据等级总结 38
2.5 小结 40
第3章 特征增强:清洗数据 41
3.1 识别数据中的缺失值 41
3.2 处理数据集中的缺失值 48
3.3 标准化和归一化 61
3.4 小结 70
第4章 特征构建:我能生成新特征吗 71
4.2 填充分类特征 72
4.3 编码分类变量 77
4.4 扩展数值特征 83
4.5 针对文本的特征构建 89
4.6 小结 97
第5章 特征选择:对坏属性说不 98
5.1 在特征工程中实现更好的性能 99
5.2 创建基准机器学习流水线 103
5.3 特征选择的类型 106
5.4 选用正确的特征选择方法 125
5.5 小结 125
第6章 特征转换:数学显神通 127
6.1 维度缩减:特征转换、特征选择与特征构建 129
6.2 主成分分析 130
6.3 线性判别分析 148
6.4 LDA与PCA:使用鸢尾花数据集 157
6.5 小结 160
第7章 特征学习:以AI促AI 161
7.1 数据的参数假设 161
7.2 受限玻尔兹曼机 163
7.3 伯努利受限玻尔兹曼机 169
7.4 在机器学习流水线中应用RBM
7.5 学习文本特征:词向量 180
7.6 小结 190
第8章 案例分析 191
8.1 案例1:面部识别 191
8.2 案例2:预测酒店评论数据的主题 200
8.3 小结 210
· · · · · ·