【Datewhale一起吃瓜 Task3】啃瓜第四章
创始人
2024-05-16 16:41:34
0

文章目录

  • 决策树
    • 学习过程
    • 预测过程
  • 如何划分
    • 信息熵
    • 信息增益
    • 增益率
    • 基尼指数
  • 泛化能力关键:剪枝
    • 预剪枝
    • 后剪枝
    • 比较
  • 缺失值处理:样本赋权,权重划分

决策树

决策树基于“树”结构进行决策

在这里插入图片描述

  • 每个内部节点对应于某个属性上的测试
  • 每个分支对应于该属性的某个取值
  • 每个叶节点对应于一个预测结果

学习过程

根据训练数据,确定每个节点的划分属性
在这里插入图片描述

划分停止条件

  • 当前节点包含的样本属于同一类别,无需划分
  • 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分
  • 当前节点包含的样本集合为空,不能划分

预测过程

新样本从根节点开始,根据节点属性一步一步往下走,直到叶节点为最终预测结果

如何划分

信息熵

描述当前样本纯度,信息熵越小,纯度越高
在这里插入图片描述

信息增益

描述经过一次划分后获得的收益
在这里插入图片描述
缺点:对于属性值多的属性有所偏好

增益率

在这里插入图片描述
过程:先从信息增益中找到高于平均水平的,再从中找到增益率高的

基尼指数

基尼指数越小,数据集纯度越高
在这里插入图片描述

泛化能力关键:剪枝

预剪枝

验证每个节点划分后前后精度变化,再决定要不要生成这个节点

后剪枝

先生成完整的决策树,再由下向上考虑每个节点前后精度变化

比较

在这里插入图片描述

缺失值处理:样本赋权,权重划分

  1. 计算无缺失值的信息增益
  2. 根据无缺失值的样本占总样本的比例赋予信息增益权重,找到最大的属性作为划分节点
  3. 含缺失值的样本,根据无缺失值的样本在三个分支上的比例进行划分

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
【PdgCntEditor】解... 一、问题背景 大部分的图书对应的PDF,目录中的页码并非PDF中直接索引的页码...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
修复 爱普生 EPSON L4... L4151 L4153 L4156 L4158 L4163 L4165 L4166 L4168 L4...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...