Prototypical Networks for Few-shot Learning
创始人
2024-03-18 23:34:04
0

摘要

我们为零样本分类问题提出了一个原型网络。在这里分类器必须能够被泛化到新类别(在训练集中不可见),每个新类只给出少量示例。
原型网络能够学习一个度量空间,通过计算每个类别的原型表示距离实现分类。与少样本学习近几年的研究方法相比:它们反应了一种更简单的归纳误差,在这种有限数据的情况下是有溢的,并取得了出色的效果,我们提供的分析表明,与最近涉及复杂架构选择和元学习的方法相比。一些简单的设计决策能够产生实质性的改进,进一步将原型网络扩展到零样本学习,并实现最先进得效果在theCU−Birdsdatasethe CU-Birds datasetheCU−Birdsdatase数据集上。

介绍

零样本学习是一个任务:分类器能够很好到泛化到训练集中没有的类别。(训练集的每个类都有少量的示例),最近的方法,新数据上的预训练模型能够导致严重的过拟合。这些问题是十分困难的,已经证明显示:人类有能力去执行:one−shotclassificationone-shot classificationone−shotclassification,(每个新类别仅有一个单独样本给出),加上高度的准确率。

科普

  • one-shot classification (从一个类中学习一个二分类器

介绍(后接上文)

在零样本研究当中,两个近年来的方法已经做出了极大的进步,

  • Vinyals et al :提出了一个匹配网络(matching networks),在支持集的可学习嵌入上使用一个注意力机制,去预测查询集。匹配网络可以解释为将带有权重的最近邻分类器应用在一个嵌入空间中。显著地,模型能够利用样本mini−batchesmini-batchesmini−batches, 在训练集上的多次迭代

  • 设计的每轮迭代都能够最小化零样本任务,通过下采样分类也有数据点。使用迭代能够使得训练问题在测试环境中,更加稳定,能够提高泛化性能。

  • 关键点:matching networks、 an attention mechanism、the support set、the query set、a weighted nearest-neighbor classifier、sampled mini-batches、subsampling classes、
    data points、

  • Ravi and Larochelle
    利用迭代训练思想进一步和提出了少样本学习的元学习的方法
    这些方法涉及到训练一个LSTM,去产生更新的分类器,给一个迭代,因此,其将会在测试集上取得更好的泛化性能
    而不是在单一个模型上多次迭代,LSTM元学习器为每次迭代学习一个训练一个自定义模型

通过解决过拟合来处理零样本学习的问题,因此,数据是非常有限的,我们工作的假定是分类器有一个简单的归纳偏差,我们的方法,原型网络是基于这种思想,每个类别单一的原型表示points cluster存在一个嵌入
为了解决这些,我们使用神经网络学习一个非线性映射将输入映射进嵌入空间。利用一个类原型:嵌入空间中支持集的平均值。查询点找到最近类原型来进行分类。
我们按照相同的方法去处理零样本学习,因此,每个类别都使用更高级别描述的元数据,而不是一个简单的标签示例,因此,将元学习嵌入到共享空间为了服务每个类的原型
在这里插入图片描述
在零样本场景中,分类可以被执行**,通过依据嵌入查询点发现最近类原型**。
在这篇论文中,我们计算类原型网络通过零样本和少样本集合。在单个样本集中我们阐述匹配网络
matching networks)和(the one-shot setting
在模型中,使用theunderlyingdistancefunctionthe underlying distance functiontheunderlyingdistancefunction,
特别地,我们将原型网络相关到聚类,为了验证使用类均值作为原型的正当性。Bregman 散度来计算距离原型,
比如:欧氏距离
富有经验的发现,距离的选取是至关重要的,因为欧氏距离可以极大优于余弦函数距离(cosine,similaritycosine,similaritycosine,similarity)
在一些基准任务上,我们实现了一些顶级的效果。原型网络比近年来的元学习算法更假简单和更加有效,使其称为零样本和少样本学习方法更加的受欢迎。

原型网络

Notation

在零样本分类中,我们
*我们给予一个NlabeledexamplesN labeled examplesNlabeledexamples的支持集。
{(x1,y1),...,(xN,yN){(x_1, y_1), . . . ,(x_N , y_N )}(x1​,y1​),...,(xN​,yN​)}
xi∈RDx_i \in R^Dxi​∈RD 是例子中的D维特征向量$ the D-dimensional feature vector$
yiy_iyi​ ∈\in∈ {1,⋯,K1,\cdots,K1,⋯,K} 与特征向量相同维度的标签空间。
SkS_kSk​ 表示有标签集合中的class,kclass,kclass,k

模型

原型网络计算一个anM−dimensionalrepresentationan M-dimensional representationanM−dimensionalrepresentation
原型:ck∈RMc_k \in R^{M}ck​∈RM

  • 每个类通过一个嵌入函数:
    fϕ:RD→RMf_{\phi}:R^{D}\rightarrow R^{M}fϕ​:RD→RM 加上学习参数ϕ\phiϕ
  • 每个类的原型都是嵌入支持点的均值向量,该支持点归属于其类别。
  • 类原型
    cK=1∣SK∣∑(xi,yi)∈Skfϕ(xi)c_K = \frac{1}{|S_K|}\sum_{(x_i,y_i) \in S_k}f_{\phi}(x_i)cK​=∣SK​∣1​(xi​,yi​)∈Sk​∑​fϕ​(xi​)
  • 给出一个距离函数d:RM×RMd:R^{M} \times R^{M}d:RM×RM →[0,∞)\rightarrow [0,\infty)→[0,∞)
    原型网络为查询点xxx产生一个分布类,在嵌入空间中,基于SoftmaxSoftmaxSoftmax函数的原型,在嵌入空间中。

在这里插入图片描述
通过最小化负对数似然概率来进行学习过程:
J(ϕ)=−logpϕ(y=k∣x)J(\phi) = -logp_{\phi}(y = k|x)J(ϕ)=−logpϕ​(y=k∣x)
真实类别klklkl,验证SGDSGDSGD.
通过随机的从训练集中选择一系列类,完成迭代过程。
选择一系列支持集的示例.和一系列查询点示例

  • query points
  • the support points
    使用以下算法1,来最小化J(ϕ)J(\phi)J(ϕ)

算法思想:随机采样+最小化损失函数

在这里插入图片描述

原型网络作为混合密度估计

距离函数的特定类,被定义为:regularBregmandivergencesregular Bregman divergencesregularBregmandivergences,
原型网络算法可以实现相等的效果与支持集上的混合密度估计加一个指数分布簇
$ mixture density estimation on the support set $,
an,exponential,family,densityan, exponential,family,densityan,exponential,family,density
正则的Bregman度量可以定义为:
在这里插入图片描述
ϕ\phiϕ是严格的凸二次可微函数
BregmanBregmanBregman度量的例子包括:均方欧氏距离和马哈顿距离
在这里插入图片描述
原型计算能够被观看到在支持集上的硬聚类
Prototype computation can be viewed in terms of hard clustering on the support set, with one cluster per class and each support point assigned to its corresponding class cluster. It has been shown [4] for Bregman divergences that the cluster representative achieving minimal distance to its assigned points is the cluster mean. Thus the prototype computation in Equation (1) yields optimal cluster representatives given the support set labels when a Bregman divergence is used.

在这里插入图片描述
在这里插入图片描述

可解释线性模型

在这里插入图片描述

与匹配网络相比较

Matchine networks:

  • a weighted nearest neighbor classifier given the support set

prototypical networks

  • produce a linear classifier when squared Euclidean distance is used

  • ordinary gradient descent methods

决策选择

  • Distance metric
    • squared Euclidean distance
  • Episode composition
    在这里插入图片描述

零样本学习

在这里插入图片描述
ck=gϑ(vk)c_k = g_ϑ(v_k)ck​=gϑ​(vk​)
原数据向量和查询点来自不同的输入域。
(the meta-data vector and querypoint)

实验

  • 训练方式:a,SGD,with Adam

miniImageNet Few-shot Classification

  • ILSVRC-12 dataset
  • 在这里插入图片描述

基准模型

  • two non-fine-tuned variants of matching networks
  • the Meta-Learner LSTM 和 FCE

CUB Zero-shot Classification

  • the Caltech-UCSD Birds (CUB) 200-2011 dataset
    在这里插入图片描述
  • Early stopping (早停法)

相关工作

在这里插入图片描述

  • the variational autoencoder [(变体自编码)

结论

  • the simplicity and effectiveness of prototypical networks makes it a promising approach for few-shot learning

概览

原型网络大致搞明白啦,明天学会将其运用在代码框架上,并将其研究一番。
全部都将其搞定都行啦的回事与打算。会将这个原型网络用于代码学习与研究上。
会自己仔细斟酌透彻,仔细研究一番。全部都将其搞定都行啦的回事与打算。

明天自己把代码跑一波

一个广义零样本的基本模型方法就搞懂啦。

总结

大致理解以下,然后自己慢慢的开始搞代码,都行啦的样子与打算。
大致了解一波,公式推断原理,然后慢慢的开始搞起来都行啦的回事与打算。

  • 数据集的概览,先进行观察数据集,运行代码的时候,在自己运行各种数据集及其他的样子与打算。
  • 重点学得深入后会自己推导公式。

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
【Ctfer训练计划】——(三... 作者名:Demo不是emo  主页面链接:主页传送门 创作初心ÿ...