西瓜书-决策树
创始人
2024-04-27 12:15:36
0

决策树

在这里插入图片描述

在这里插入图片描述
决策树划分时,当前属性集为空,或所有样本在所有属性上取值相同,将结点标记为叶节点,其类别标记为当前样本集中样本数最多的类。

决策树算法的核心在于:选择最优划分属性
判别分类的三种情形:

  • 当前节点包含的样本全属于一个类别,则可视为叶子节点,分类就是本身
  • 当前节点为空,则分类就是父类的分类
  • 当前节点包含样本不全属于一个类别,那么多数作为类别在这里插入图片描述

信息增益information gain

在这里插入图片描述

ID3

在二分类任务中,若当前样本集合的正类和负类的数量刚好各一半,此时信息熵为Ent(D)=−(12log212+12log212)=1Ent(D)=-(\frac{1}{2}log_{2}\frac{1}{2}+\frac{1}{2}log_{2}\frac{1}{2})=1Ent(D)=−(21​log2​21​+21​log2​21​)=1
信息增益=划分前的信息熵-第v个分支的权重*划分后的信息熵
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述在这里插入图片描述

C4.5

IV(a)IV(a)IV(a)的形式是在做规范化,其把原来不可以直接比较的东西变得可比较。归一化是规范化的特例,归一化是把规范化的范围限制在[0,1]区间。
由于无法判断Gain(D,a)Gain(D,a)Gain(D,a)与IV(a)IV(a)IV(a)之间应该是控制Gain(D,a)Gain(D,a)Gain(D,a)更大,还是控制IV(a)IV(a)IV(a)更小,采用启发式的方法——先从候选划分属性中找出信息增益高于平均水平的,再从中选取增益率最高的。
在这里插入图片描述

CART算法,基尼指数

按照概率来理解,如果每次抓两个球,如果两次抓到的球属于同一类,说明候选属性集合比较纯;因此Gini(D)Gini(D)Gini(D)中,抓球抓到第一类的概率是∑k=1∣y∣pk\sum_{k=1}^{|y|}p_k∑k=1∣y∣​pk​,抓球抓到第二类的概率是∑k′≠kpk′\sum_{k \prime \ne k}p_k^{\prime}∑k′=k​pk′​,如果二者乘积越小,数据集D的纯度越高。同理,用1-两次抓出相同类型球的概率(纯度)=不纯度,即Gini(D)Gini(D)Gini(D).
在这里插入图片描述

以上三种划分算法的区别

划分选择VS剪枝

划分选择的三种算法差异不明显;而剪枝方法和程度对决策树泛化性能的影响更为显著。
在这里插入图片描述
剪枝的目的在于尽量避免过拟合,基本策略包括预剪枝和后剪枝,评估剪枝前后的优劣用到第二章的评估方法。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

缺失值的处理思路

在这里插入图片描述

样本赋权,权重划分

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
权重划分:给定划分属性,若样本在该属性上的值缺失,会按权重同时进入所有分支。
对于缺失值样本(红色),其在三个类别上的权重不再是1,而分别是7/15,5/15.3/15,注意,虽然有17个样本,但2个缺失,故分母取得15.

相关内容

热门资讯

MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
Android---Banne... 轮播图是一种很常见的UI。Banner框架能够帮助我们快速开发,完成首页轮播图效果的需...
python -- PyQt5... 控件2 本章我们继续介绍PyQt5控件。这次的有 QPixmap , QLineEdi...
Mysql SQL优化跟踪来看... 背景 使用索引字段进行筛选数据时,explain查询语句发现MySQL居然没有使用索...
UG 6.0软件安装教程 UG 6.0软件安装教程 软件简介: UG 6.0是目前网络最好用、使用最为广泛的大型...
HTML静态网页作业——关于我... 家乡旅游景点网页作业制作 网页代码运用了DIV盒子的使用方法,如盒子的嵌套、浮动、ma...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
NoSQL数据库之Redis2 Redis 事务 事务的基础概念 关于事务最常见的例子就是银行转账,A 账户给 B 账...
Spring Security... 前言 在 Spring Security 中,默认的登陆方式是以表单形式进行提交参数的...
Redis 支撑秒杀场景的关键... 文章目录秒杀场景的负载特征对支撑系统的要求Redis 可以在秒杀场景的哪些环节发挥作用?...