每天五分钟机器学习:PCA算法如何确定数据压缩降维的最佳维度?
创始人
2024-04-25 14:35:40
0

本文重点

上节课程中我们已经学习了pca算法,已经知道了如何将n维特征变量降到k维,k是PCA算法的一个参数,也被称为主成分的数量。那么现在就产生了一个问题,这个问题就是如何选择K,因为PCA要做的就是要尽量减少投射的平均均方误差,所以K的选择很关键。

平均均方误差

其中x(i)表示原始样本的特征向量,Xapprox(i)表示映射的样本

数据的总变差

 

数据的总变差就是数据集中每个训练样本长度的平均值,它表示平均来看我们训练集样本距离0向量有多远。

k值的经验得法则

k值的经验得法则就是,选择能够使得它们之间得比例小于0.01的最小的K值。

 

这个0.01用PCA语言就是说我们选择的参数K,原本数据的偏差有 99%都保留下来了,也就是说使得99%的差异性得以保留。大部分人选择k的时候,并不是直接的选择k值是多少,而是≤0.01还是0.05(95%的差异性被保留),0.10,0.15。然后选择符合这些要求的最小的k值。

<

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
【PdgCntEditor】解... 一、问题背景 大部分的图书对应的PDF,目录中的页码并非PDF中直接索引的页码...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...