1. 训练感知机

在这里插入图片描述
如果当前是第i个样本，yi是真实标签值，+b得到的是预测值，如果二者相乘小于等于0，则表明分类错了，于是说明当前权重对分类是错误的，就对w和b都做一次更新。

解释一下，损失函数中，如果分类正确的话-y是会小于0的，和0求max就是得到0，则梯度是一个常数，不会去做更新，对应上方的if、语句不成立。如果分类错误的话，第二项就会为正，会有梯度，进入到if语句里面。

损失函数求导，w的导数为yixi，b的导数为yi（损失函数中，把b写进了w和x向量里，b以增广矩阵的形式放到了w矩阵最后一列了）

感知机等价于用损失函数，使用批量大小为1做梯度下降。

2. 收敛定理

在这里插入图片描述

3. XOR问题

在这里插入图片描述

4. 对于感知机的总结

感知机是一个二分类模型，是最早的AI模型之一
它的求解算法等价于使用批量大小为1的梯度下降
它不能拟合XOR函数，导致第一AI寒冬

5. 学习XOR

在这里插入图片描述
一次分类不出，就先学一个简单的函数，再学一个简单函数，再用另一个简单函数组合之前学的两个函数。

6. 单隐藏层

在这里插入图片描述
隐藏层的大小是一个超参数，输入的大小是不能改变的，输出的大小看输入数据分为几类，而隐藏层有多大是能设计的。

在这里插入图片描述

注意，这里是解释单分类，而右边图片明显分类数为3，因此不要对应起来，具体解释如下：

在这里插入图片描述
Q：为什么需要非线性的激活函数？
答：假设激活函数为f（x）=x，也输出就是输入的话，则h = W1x+b1，再把h带入到第二个式子：o = W2Th+b2，则o = w2TW1x+b‘ ，并且w2TW1是一个向量，若把它记为W’ ，那么最后的输出是 o = w‘x+b’，仍然是一个线性模型，就无法解决XOR问题，也就等价于单层感知机。