机器学习基础

机器学习的四个分支

监督学习

监督学习是目前最常见的机器学习类型。
变体：

序列生成：给定一张图像，预测描述图像的文字。
语法树预测：给定一个句子，预测其分解生成的语法树。
目标检测：给定一张图像，在图中特定目标的周围画一个边界框。
图像分割：给定一张图像，在特定物体上画一个象素级的mask。

无监督学习

是指在没有目标的情况下寻找输入数据的有趣变换。

降维
聚类

自监督学习

没有人类参与的监督学习。
标签是从输入数据中生成的，通常是使用启发式算法生成的。

自编码器

强化学习

智能体还没有工业化，未来？

评估机器学习模型

训练集，验证集和测试集

超参数–选择层数或每层的的大小
参数–权重
信息泄露

如果数据很少：

简单的留出验证
K折验证
重复K折验证

简单的留出验证

留出一定比例的数据作为测试集。

k折验证

将数据划分为大小相同的k个分区。

带有打乱数据的重复k折验证

计算代价很大

评估模型的注意事项

数据代表性
时间箭头
数据冗余

数据预处理，特征工程和特征学习

神经网络的数据预处理

目的是使原始数据更适于用神经网络处理

向量化
值标准化
输入数据应具以下特征：
- 取值较小
- 同质性
处理缺失值

特征工程

用更简单的方式表述问题，从而使问题变得很容易。

过拟合与欠拟合

优化
泛化
正则化: 降低过拟合的方法

正则化方法：

减小网络大小

容量：模型中可学习参数的个数

添加权重正则化

奥卡姆剃刀原理
一种常见的降低过拟合的方法：强制使模型权重只能选择较小的值，从而限制模型的复杂度，使得分布更加的规则。
实现方法是向网络损失函数中添加与较大权重值相关的成本。
两种形式：
L1正则化：成本与权重系数的绝对值成正比
L2正则化（权重衰减）：成本与权重系数的平方成正比
添加dropout正则化

对某一层使用，就是在训练过程中随机将该层的一些输出特征舍弃（设置为0）

总结

防止神经网络过拟合的常用方法：

获得更多的训练数据
减小网络容量
添加权重正则化
添加dropout

机器学习的通用工作流程

定义问题，收集数据集

非平稳问题

选择衡量成功的指标

确定评估方法

准备数据

开发比基准更好的模型

目标是获得 统计功效
选择三个关键参数构建第一个工作模型：

最后一层的激活
损失函数
优化配置

扩大模型规模：开发过拟合的模型

理想的模型是刚好在欠拟合和过拟合的界线上，在容量不足和容量过大的界线上。

模型正则化与调节超参数

应该尝试以下几项：

添加dropout
尝试不同的架构：增加或减少层数
添加L1或L2正则化
尝试不同的超参数，以找到最佳的配置
（可选）反复做特征工程：添加新特征或删除没有信息量的特征

上篇想见你

下篇博弈论基础