为什么要做特征工程?

“数据和特征决定了机器学习的上限,而模型和算法是在逼近这个上限而已”,所以数据是机器学习的基础。数据来源是各种各样的,文本、语音、视频、图片等,原始的数据必须以特征的形式,加入到模型中,才能进行训练

特征工程方法

1、One-Hot编码

避免连续值导致模型的“误解”

2、离散化

对数据进行分区分桶操作

3、连续值

使用属性的连续值,某些模型对连续型的特征处理有比较好的效果

4、特征交叉

两个甚至多个特征,进行特征组合,形成一组新的特征

5、归一化

机器学习中,对数据进行分析之前,都会对数据进行归一化处理,这样做是为了消除部分特征数据对整体结果的影响。一般来说,是通过特定的方法,对数据的区间进行缩放处理,使之达到一个合适值,使各个指标处于同一个数量级。常见的是将数值处理成[0,1]之间的小数

5.1 最大最小标准化

通过特征的最大最小值,将每个值处理成[0,1]区间的数字,公式如下
设最大maxA,最小值为minA,y=(x-minA)/(maxA-minA)

5.2 对数函数

y=log10(x)

5.3 z-score标准化

通过特征的平均值和标准差,进行数据处理,公式为:
y=(x-μ)/σ 其中x为某一分数,μ为平均数,σ为标准差。
y的含义就是x与平均值之间的距离,衡量单位是标准差

6、二值化

取值为 0,1