EMNLP 22:SetGNER: General Named Entity Recognition as Entity Set Generation
创始人
2024-05-04 08:09:19
0

SetGNER: General Named Entity Recognition as Entity Set Generation

**任务形式:**识别flat、nest和不连续实体。

**任务建模方式:**采用基于pointer的方式实现任务建模,文本序列中的每个word可以用tag表示,具体为:
三个特征的tags: ⟨∅⟩, indicating no-entityfound; ⟨#⟩, indicating fragment of entity is found;
⟨/s⟩, indicating the end of the generated sequence.
Ptr(⟨∅⟩) = C,
Ptr(⟨#⟩) = C + 1,
Ptr(⟨/s⟩) = C + 2.
序列中其余tags的表示:(j是word在序列中位置)
Ptr(wj ) = C + 3 + j

pointer sequence for entity ei is defined as:在这里插入图片描述

模型结构

1 word level 的encoder

先采用encoder编码器得到token level 的embedding的表示。
之后,采用maxpool 操作,得到word level 的embedding表示。具体是对每个word的tokens中,计算tokens的start和end的表示。
R是word level的表示,size是N*d
在这里插入图片描述

2 mention detector

2.1 预测每个head word下有多少个实体?

V = ReLU(WV R + bV )
之后,使用softmax layer计算,得到在这里插入图片描述
loss函数:
在这里插入图片描述

2.2 预测一个word是否是entity的head或者tail?

在这里插入图片描述

3 parallel generator

由于目标序列由Pointer tags组成,因此在解码之前应将它们转换为单词/标签。我们将此操作表示为 Retrieve(·)
在这里插入图片描述

对于retrieve之后的序列,采用bart的decoder完成解码操作。

在这里插入图片描述
loss 函数:
在这里插入图片描述

训练过程

还有一个反向生成过程。
在这里插入图片描述

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
【PdgCntEditor】解... 一、问题背景 大部分的图书对应的PDF,目录中的页码并非PDF中直接索引的页码...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
修复 爱普生 EPSON L4... L4151 L4153 L4156 L4158 L4163 L4165 L4166 L4168 L4...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...