Transformer在CV上的应用-论文总结
创始人
2025-06-01 12:43:12
0
年份会议/期刊标题内容领域架构图
2017NIPSAttention is all you need(Transformer)贡献:提出了一种新的简单的网络架构Transformer,它完全基于注意力机制,完全不需要递归和卷积。
做法:Encoder and Decoder Stacks,self-attention,Masked Multi-Head Attention,
nlp
2020ECCVEnd-to-End Object Detection with Transformers
(DETR)
贡献:a set-based global loss that forces unique predictions via bipartite matching, and a transformer encoder-decoder architecture。
做法:Object detection set prediction loss(最优二分匹配匈牙利算法),CNN+transformer架构
目标检测
2021ICLRAN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(Vit)贡献:直接将transformer应用于视觉,不做过多的修改
做法:
1. split an image into patches,每个patch是16x16,因此224x224的图片变成14x14的序列
2. 将每一个patch通过一个fc layer,获得一个linear embedding (将patch看成序列中的单词)
3. 有监督的训练方式
分类
2021ICCVSwin Transformer: Hierarchical Vision Transformer using Shifted Windows贡献:提出了一种基于VIT的计算机视觉的通用主干框架
做法:
1.通过分层结构来处理图片
2.window self-attention
3.采取移动窗口的方式,允许跨窗口连接。
cv backbone
2021MICCAICoTr: Efficiently Bridging CNN and Transformer for 3D Medical Image Segmentation1.我们第一个来探索Transformer 的3D医学图像分割,特别是在计算和空间上的效率方法。【transformer优化技巧:可变形注意力】
2.我们引入了可变形自注意力机制来减少Transformer的复杂性,因此使得我们的CoTr可以使用多尺度特征来建模长程依赖。
3 我们的CoTr在3D多器官分割任务上优于基于CNN的、基于Transformer、以及混合模型。
3D医学图像分割
2022WACVUNETR: Transformers for 3D Medical Image Segmentation利用纯Transformers作为编码器来学习输入量的序列表示并有效地捕获全局多尺度信息。同时也遵循了编码器和解码器的成功的“U型”网络设计,Transformers编码器通过不同分辨率的跳跃连接直接连接到解码器,以计算最终的语义分段输出。3D医学图像分割

相关内容

热门资讯

监控摄像头接入GB28181平... 流程简介将监控摄像头的视频在网站和APP中直播,要解决的几个问题是:1&...
Windows10添加群晖磁盘... 在使用群晖NAS时,我们需要通过本地映射的方式把NAS映射成本地的一块磁盘使用。 通过...
protocol buffer... 目录 目录 什么是protocol buffer 1.protobuf 1.1安装  1.2使用...
educoder数据结构与算法...                                                   ...
MySQL下载和安装(Wind... 前言:刚换了一台电脑,里面所有东西都需要重新配置,习惯了所...
MFC文件操作  MFC提供了一个文件操作的基类CFile,这个类提供了一个没有缓存的二进制格式的磁盘...
在Word、WPS中插入AxM... 引言 我最近需要写一些文章,在排版时发现AxMath插入的公式竟然会导致行间距异常&#...
有效的括号 一、题目 给定一个只包括 '(',')','{','}'...
Fluent中创建监测点 1 概述某些仿真问题,需要创建监测点,用于获取空间定点的数据࿰...
【Ctfer训练计划】——(三... 作者名:Demo不是emo  主页面链接:主页传送门 创作初心ÿ...