时间**:2023年10月26日(周四) 09: 30
地点:望江校区基础教学楼B座318实验室
分享者:蒋林呈、阳斯敏、姚和
Part1
分享者:蒋林呈
分享内容:
[1] Jiao J, Tang Y M, Lin K Y, et al. Dilateformer: Multi-scale dilated transformer for visual recognition[J]. IEEE Transactions on Multimedia, 2023.
论文简介:
[1]本文介绍了DilateFormer,一种新型的Vision Transformer模型,它引入了滑动窗口膨胀注意力机制(SWDA)和多尺度膨胀注意力机制(MSDA)以提高性能和减少计算负担。传统的视觉Transformer(ViTs)能够捕捉长距离依赖,但计算代价较高。另一方面,受CNN启发的局部注意力虽然减少了计算成本,但感受野较小,可能影响性能。在这项研究中,作者探索了一种有效的视觉Transformer,以在计算复杂性和感受野大小之间取得平衡。通过分析ViT的全局依赖,作者发现浅层存在局部性和稀疏性,说明ViT浅层全局依赖建模存在冗余。因此,作者提出了多尺度扩展注意力(MSDA)来模拟滑动窗口内的局部和稀疏patch之间的交互。通过金字塔结构将MSDA块叠加在底层,将全局多头自注意块叠加在高层,构建了多尺度空洞Transformer(DilateFormer)。实验结果显示,DilateFormer在各种视觉任务中表现出色。
Part2
分享者:阳斯敏
分享内容:
[1] Lin X, Yan Z, Deng X, et al. ConvFormer: Plug-and-Play CNN-Style Transformers for Improving Medical Image Segmentation[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer Nature Switzerland, 2023: 642-651.
论文简介:
[1]本文主要介绍了一种名为ConvFormer的新型CNN-style Transformers,用于提高医学图像分割的性能。文章指出,由于医学图像数据相对有限,传统的transformer模型在提取全局特征方面表现不佳,容易出现attention collapse现象,而引入CNN可以改善这种情况。ConvFormer模型结合了CNN和transformer的优点,采用2D卷积和最大池化来保留位置信息并减小特征大小,采用CNN-style self-attention来建立像卷积核一样的自注意力矩阵以实现长程依赖,最后采用卷积前馈网络来进行特征细化。实验证明ConvFormer在多个数据集上的性能均优于现有的transformer-based框架。
Part3
分享者:姚和
分享内容:
进行相关个人介绍(如基本情况、教育经历、兴趣爱好等)和在贵州大学期间攻读计算机科学与技术硕士研究生的工作、科研等内容的分享,以及对于未来在项目、科研等方面上的规划