特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的特征,为进一步解释数据并进行预测性分析做准备。
本书囊括了特征工程的全流程,从数据检查到可视化,再到转换和进一步处理等,并给出了大量数学工具,帮助读者掌握如何将数据处理、转换成适当的形式,以便送入计算机和机器学习流水线中进行处理。后半部分的特征工程实践用Python作为示例语言,循序渐进,通俗易懂。
• 识别和利用不同类型的特征
• 清洗数据中的特征,提升预测能力
• 为何、如何进行特征选择和模型误差分析
• 利用领域知识构建新特征
• 基于数学知识交付特征
• 使用机器学习算法构建特征
• 掌握特征工程与特征优化
• 在现实应用中利用特征工程