xgboost:分割Sparsity-aware Split Finding
创始人
2024-05-29 04:14:42
0

Sparsity-aware Split Finding1

在许多现实问题中,输入xxx是稀疏的是很常见的。造成稀疏性的可能原因有很多:

1)数据中存在缺失值;

2)统计中频繁出现零项;

3)特征工程的处理结果,如独热编码。

重要的是使算法意识到数据中的稀疏模式。为此,在每个树节点上增加一个默认方向,如图所示。当稀疏矩阵x中缺少一个值时,实例将被分类到默认方向。

图中是具有默认方向的树结构。当缺少拆分所需的特征时,示例将被分类到默认方向。

在这里插入图片描述

在每个分支中有两个默认方向的选择。从数据中学习最优默认方向。算法如图3所示。关键的改进是只访问未丢失的特征IkI_kIk​。该算法将不存在作为缺失值,并学习处理缺失值的最佳方向。

在这里插入图片描述

据我们所知,大多数现有的树学习算法要么只是针对密集数据进行优化,要么需要特定的过程来处理有限的情况,比如分类编码。XGBoost以统一的方式处理所有稀疏模式。更重要的是,我们的方法利用稀疏性使计算复杂度与输入中非缺失项的数量成线性。图5显示了在Allstate-10K数据集上稀疏感知和naive实现的比较(第6节给出了数据集的描述)。我们发现稀疏感知算法比naive版本的运行速度快50倍。这证实了稀疏感知算法的重要性。

在这里插入图片描述

图5:稀疏感知算法对Allstate-10K的影响。数据集稀疏主要是由于独热编码。稀疏性感知算法比不考虑稀疏性的原来版本快50倍以上。[]

参考:


  1. XGBoost: A Scalable Tree Boosting System ↩︎

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
【PdgCntEditor】解... 一、问题背景 大部分的图书对应的PDF,目录中的页码并非PDF中直接索引的页码...
修复 爱普生 EPSON L4... L4151 L4153 L4156 L4158 L4163 L4165 L4166 L4168 L4...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...