摘要

我们为零样本分类问题提出了一个原型网络。在这里分类器必须能够被泛化到新类别（在训练集中不可见），每个新类只给出少量示例。
原型网络能够学习一个度量空间，通过计算每个类别的原型表示距离实现分类。与少样本学习近几年的研究方法相比：它们反应了一种更简单的归纳误差，在这种有限数据的情况下是有溢的，并取得了出色的效果，我们提供的分析表明，与最近涉及复杂架构选择和元学习的方法相比。一些简单的设计决策能够产生实质性的改进，进一步将原型网络扩展到零样本学习，并实现最先进得效果在theCU−Birdsdatasethe CU-Birds datasetheCU−Birdsdatase数据集上。

介绍

零样本学习是一个任务：分类器能够很好到泛化到训练集中没有的类别。（训练集的每个类都有少量的示例），最近的方法，新数据上的预训练模型能够导致严重的过拟合。这些问题是十分困难的，已经证明显示：人类有能力去执行：one−shotclassificationone-shot classificationone−shotclassification,（每个新类别仅有一个单独样本给出），加上高度的准确率。

科普

one-shot classification (从一个类中学习一个二分类器）

介绍(后接上文）

在零样本研究当中，两个近年来的方法已经做出了极大的进步，

Vinyals et al ：提出了一个匹配网络（matching networks），在支持集的可学习嵌入上使用一个注意力机制，去预测查询集。匹配网络可以解释为将带有权重的最近邻分类器应用在一个嵌入空间中。显著地，模型能够利用样本mini−batchesmini-batchesmini−batches, 在训练集上的多次迭代。
设计的每轮迭代都能够最小化零样本任务，通过下采样分类也有数据点。使用迭代能够使得训练问题在测试环境中，更加稳定，能够提高泛化性能。
关键点：matching networks、 an attention mechanism、the support set、the query set、a weighted nearest-neighbor classifier、sampled mini-batches、subsampling classes、
data points、
Ravi and Larochelle
利用迭代训练思想进一步和提出了少样本学习的元学习的方法。
这些方法涉及到训练一个LSTM，去产生更新的分类器，给一个迭代，因此，其将会在测试集上取得更好的泛化性能。
而不是在单一个模型上多次迭代，LSTM元学习器为每次迭代学习一个训练一个自定义模型。

通过解决过拟合来处理零样本学习的问题，因此，数据是非常有限的，我们工作的假定是分类器有一个简单的归纳偏差，我们的方法，原型网络是基于这种思想，每个类别单一的原型表示points cluster存在一个嵌入。
为了解决这些，我们使用神经网络学习一个非线性映射将输入映射进嵌入空间。利用一个类原型：嵌入空间中支持集的平均值。查询点找到最近类原型来进行分类。
我们按照相同的方法去处理零样本学习，因此，每个类别都使用更高级别描述的元数据，而不是一个简单的标签示例，因此，将元学习嵌入到共享空间为了服务每个类的原型。
在这里插入图片描述
在零样本场景中，分类可以被执行**，通过依据嵌入查询点发现最近类原型**。
在这篇论文中，我们计算类原型网络通过零样本和少样本集合。在单个样本集中我们阐述匹配网络
（matching networks）和（the one-shot setting）
在模型中，使用theunderlyingdistancefunctionthe underlying distance functiontheunderlyingdistancefunction，
特别地，我们将原型网络相关到聚类，为了验证使用类均值作为原型的正当性。Bregman 散度来计算距离原型，
比如：欧氏距离。
富有经验的发现，距离的选取是至关重要的，因为欧氏距离可以极大优于余弦函数距离（cosine,similaritycosine,similaritycosine,similarity）
在一些基准任务上，我们实现了一些顶级的效果。原型网络比近年来的元学习算法更假简单和更加有效，使其称为零样本和少样本学习方法更加的受欢迎。

原型网络

Notation

在零样本分类中，我们
*我们给予一个NlabeledexamplesN labeled examplesNlabeledexamples的支持集。
{(x1,y1),...,(xN,yN){(x_1, y_1), . . . ,(x_N , y_N )}(x1,y1),...,(xN,yN)}
xi∈RDx_i \in R^Dxi∈RD 是例子中的D维特征向量$ the D-dimensional feature vector$
yiy_iyi ∈\in∈ {1,⋯,K1,\cdots,K1,⋯,K} 与特征向量相同维度的标签空间。
SkS_kSk 表示有标签集合中的class，kclass，kclass，k

模型

原型网络计算一个anM−dimensionalrepresentationan M-dimensional representationanM−dimensionalrepresentation
原型：ck∈RMc_k \in R^{M}ck∈RM

每个类通过一个嵌入函数:
fϕ：RD→RMf_{\phi}：R^{D}\rightarrow R^{M}fϕ：RD→RM 加上学习参数ϕ\phiϕ
每个类的原型都是嵌入支持点的均值向量，该支持点归属于其类别。
类原型
cK=1∣SK∣∑(xi,yi)∈Skfϕ(xi)c_K = \frac{1}{|S_K|}\sum_{(x_i,y_i) \in S_k}f_{\phi}(x_i)cK=∣SK∣1(xi,yi)∈Sk∑fϕ(xi)
给出一个距离函数d:RM×RMd:R^{M} \times R^{M}d:RM×RM →[0,∞)\rightarrow [0,\infty)→[0,∞)
原型网络为查询点xxx产生一个分布类，在嵌入空间中，基于SoftmaxSoftmaxSoftmax函数的原型，在嵌入空间中。

在这里插入图片描述
通过最小化负对数似然概率来进行学习过程:
J(ϕ)=−logpϕ(y=k∣x)J(\phi) = -logp_{\phi}(y = k|x)J(ϕ)=−logpϕ(y=k∣x)
真实类别klklkl,验证SGDSGDSGD.
通过随机的从训练集中选择一系列类，完成迭代过程。
选择一系列支持集的示例.和一系列查询点示例。

query points
the support points
使用以下算法1，来最小化J(ϕ)J(\phi)J(ϕ)

算法思想：随机采样+最小化损失函数

在这里插入图片描述

原型网络作为混合密度估计

距离函数的特定类，被定义为：regularBregmandivergencesregular Bregman divergencesregularBregmandivergences,
原型网络算法可以实现相等的效果与支持集上的混合密度估计加一个指数分布簇。
$ mixture density estimation on the support set $,
an,exponential,family,densityan, exponential,family,densityan,exponential,family,density
正则的Bregman度量可以定义为:
在这里插入图片描述
ϕ\phiϕ是严格的凸二次可微函数。
BregmanBregmanBregman度量的例子包括：均方欧氏距离和马哈顿距离。

原型计算能够被观看到在支持集上的硬聚类。
Prototype computation can be viewed in terms of hard clustering on the support set, with one cluster per class and each support point assigned to its corresponding class cluster. It has been shown [4] for Bregman divergences that the cluster representative achieving minimal distance to its assigned points is the cluster mean. Thus the prototype computation in Equation (1) yields optimal cluster representatives given the support set labels when a Bregman divergence is used.