机器学习之特征工程-特征工程介绍
1、为什么需要特征工程(Feature Engineering)
机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ” 注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
2、什么是特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。从而提高了对未知数据的预测准确性。
对于这个概念,不用过多理解,是一个比较模糊广泛的概念
- 意义:直接影响到模型的预测结果
特征工程包含内容
- 特征抽取
- 特征预处理
- 特征选择
- 特征降维
3、特征工程所需工具
3.1Scikit-learn工具介绍
- python语言的机器学习工具。
- scikit-learn包括许多致命的机器学习算法的实现。
- scikit-learn文档完善,容易上手,丰富的API。
4、数据集
数据集是特征抽取的源数据。常用数据集的结构组成:特征值+目标值。
- kaggle网址:http://www.kaggle.com/datasets
- UCI数据集:http://archive.ics.uci.edu/ml
- scikit-learn网址:http://scikit-learn.org/stable/datasets/index.html#datasets
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 DIUDIU 小菜鸟!
评论