1、为什么需要特征工程(Feature Engineering)

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ” 注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

2、什么是特征工程

特征工程是使用专业背景知识和技巧处理数据使得特征能在机器学习算法上发挥更好的作用的过程从而提高了对未知数据的预测准确性。

对于这个概念,不用过多理解,是一个比较模糊广泛的概念

  • 意义:直接影响到模型的预测结果

特征工程包含内容

  • 特征抽取
  • 特征预处理
  • 特征选择
  • 特征降维

3、特征工程所需工具

3.1Scikit-learn工具介绍

  • python语言的机器学习工具。
  • scikit-learn包括许多致命的机器学习算法的实现。
  • scikit-learn文档完善,容易上手,丰富的API。

4、数据集

数据集是特征抽取的源数据。常用数据集的结构组成:特征值+目标值。