一篇博客详解朴素贝叶斯解分类问题
创始人
2024-03-29 14:50:53
0

目录

  • 回归问题
    • 正则化Regularization
  • 分类问题—类别之间是独立的
    • 为什么不用回归解分类问题
    • 以概率的形式解分类问题
      • 抽盒机率→分类机率
      • 正态分布覆盖
        • 原理
        • 高斯分布函数
      • 极大似然估计求最优参数
    • 朴素贝叶斯法
      • 用同一个协方差
      • 三步骤
        • 模型的简化

回归问题

大概内容与之前的类似,步骤仍是三步:详见我的另一篇博客
深度学习

  1. 定义function或neural network
  2. 定义loss函数,一般采取值越低越好,有MAE、MSE、Cross Entry等
  3. 定义optimization,选择最优的参数

正则化Regularization

在这里插入图片描述
正则化是解决过拟合的一种方式

重新定义loss函数,loss函数既包括原来的损失,又包括weight参数的平方和(不加bias的原因是:function曲线的平滑与否与bias无关)

Lossnew=Lossold+λ∑i=1n(wi)2,λ是超参数Loss_{new}=Loss_{old}+\lambda \sum _{i=1} ^n (w_i)^2,\lambda 是超参数 Lossnew​=Lossold​+λi=1∑n​(wi​)2,λ是超参数

我们一般期待比较平滑的最终的神经网络function,目的是为了减少输入噪声的影响。而比较平衡的function就要求它的输出对输入不敏感,也就要求输入的系数要比较小。

分类问题—类别之间是独立的

分类网课视频
https://zhuanlan.zhihu.com/p/127993180

为什么不用回归解分类问题

回归问题的求最佳参数过程中,会利用gradient
descent根据loss值对参数进行更新,从而选择一个loss最小的参数对应的函数。而这个函数可能并不适用于分类问题(下图以二分类为例)的函数解。

在这里插入图片描述

以概率的形式解分类问题

在做回归Regression时,output为真实有意义的数字,而在做分类classification时,output为离散的数字discret ,并没有实际意义。

抽盒机率→分类机率

在这里插入图片描述

在这里插入图片描述

抽盒时,设选中Box 1的概率为2/3,选中Box 2的概率是1/3。而Box 2中选中蓝球的概率是4/5,Box
2中选中蓝球的概率是2/5,故根据 贝叶斯公式 选中蓝球而它是来自Box 1的概率是

P(Box1∣Blue)=P(Box1)×P(Blue∣Box1)P(Box1)×P(Blue∣Box1)+P(Box2)×P(Blue∣Box2)P(Box_1|Blue)=\frac {P(Box_1) \times P(Blue|Box_1)} {P(Box_1) \times P(Blue|Box_1)+P(Box_2) \times P(Blue|Box_2)} P(Box1​∣Blue)=P(Box1​)×P(Blue∣Box1​)+P(Box2​)×P(Blue∣Box2​)P(Box1​)×P(Blue∣Box1​)​

而将其演变为分类问题。则选中一个物体它是来自Class 1的概率是

P(C1∣o)=P(C1)×P(o∣C1)∑i=1nP(Ci)×P(o∣Ci),P(Ci)=numCinumallP(C_1|o)=\frac {P(C_1) \times P(o|C_1)} {\sum _{i=1} ^n P(C_i) \times P(o|C_i)},P(C_i)=\frac {num_{C_i}} {num_{all}} P(C1​∣o)=∑i=1n​P(Ci​)×P(o∣Ci​)P(C1​)×P(o∣C1​)​,P(Ci​)=numall​numCi​​​

式中的P(Ci)很好求,根据样本总数以及该类别的总数目即可算出,难点是P(o|Ci)的计算

正态分布覆盖

原理

计算P(o|Ci)我们采用正态分布(Gaussian
Distribution)
因为可以把Ci想象成从一个正态分布中选出的若干个对象,这些对象即组成了样本中的Ci。而仍有一些其他的对象(也是该分布中的),但是并不在样本中的Ci。我们构造的分类器即可以通过输入这些对象,得到它所属的类别(分类)

在这里插入图片描述

也就是说一个分布产生一个类别。我们要做的即是根据所给训练集的样本分类推导出每个类别对应的分布函数。从而即可根据这些分布函数判断出是或不是这个类别(函数输出值>0.5则是该类别)。

在这里插入图片描述

高斯分布函数

fμ,Σ(x)=1(2π)D21∣Σ∣12exp(−12(x−μ)TΣ−1(x−μ))f_{\mu,\Sigma}(x)=\frac 1 {(2\pi)^\frac D 2} \frac 1 {|\Sigma|^\frac 1 2} exp(- \frac 1 2(x-\mu)^T \Sigma ^{-1} (x-\mu)) fμ,Σ​(x)=(2π)2D​1​∣Σ∣21​1​exp(−21​(x−μ)TΣ−1(x−μ))

其中μ是这一类别的对象特征值的均值

Σ是这一类别的对象特征值的协方差矩阵

在这里插入图片描述

极大似然估计求最优参数

至于求μ和Σ,我们采用极大似然估计法,有两种计算方法:

  • 分别求μ和Σ对f的导函数,当其导函数为0时,则可求出Σ和μ值
  • 利用数学公式
    μ=1n∑i=1nxi,Σ=1n∑i=1n(xi−μ)(xi−μ)T\mu=\frac 1 n\sum _{i=1}^n x^i,\Sigma=\frac 1 n \sum _{i=1} ^n (x^i-\mu)(x^i-\mu)^T μ=n1​i=1∑n​xi,Σ=n1​i=1∑n​(xi−μ)(xi−μ)T

朴素贝叶斯法

但是如果按照上面的方案,这样每一个类别,它都会有自己的Σ,而Σ的参数数量是输入特征量的平方,所以既会导致输入参数过多,也会导致准确度降低。因此我们通常采用所有的类别有自己的μ,但是共用一个Σ

用同一个协方差

所有类别的正态分布函数均用同一个协方差会使边界boundary为直线liner model, 下面介绍这个Σ的求法:

Σall=∑i=1nnumCinumallΣi\Sigma_{all}=\sum _{i=1} ^n \frac {num_{C_i}}{num_{all}} \Sigma_i Σall​=i=1∑n​numall​numCi​​​Σi​

在这里插入图片描述

三步骤

  • 定义模型
    P(C1∣o)=P(C1)×P(o∣C1)∑i=1nP(Ci)×P(o∣Ci),P(Ci)=numCinumallP(C_1|o)=\frac {P(C_1) \times P(o|C_1)} {\sum _{i=1} ^n P(C_i) \times P(o|C_i)},P(C_i)=\frac {num_{C_i}} {num_{all}} P(C1​∣o)=∑i=1n​P(Ci​)×P(o∣Ci​)P(C1​)×P(o∣C1​)​,P(Ci​)=numall​numCi​​​

    模型的简化

    在这里插入图片描述
    化简过程

    这也可以解释,为什么共用Σ,边界是直线

    所有类别的正态分布函数均用同一个协方差会使边界boundary为直线liner model

    之后我们会讲解如何直接得到w和b

  • 通过什么来评价模型中函数的好坏

    例如采用高斯分布,是通过μ和Σ来确定模型中函数的好坏

  • 寻找分布函数的最优参数

    通过极大似然估计

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
【Ctfer训练计划】——(三... 作者名:Demo不是emo  主页面链接:主页传送门 创作初心ÿ...