时间**:2023年4月14日(周五) 09: 30
地点:望江校区基础教学楼B座318实验室
分享者:蒋林呈、阳斯敏、欧阳成州
Part1
分享者:蒋林呈
分享内容:
[1] Zhao Y, Tang H, Jiang Y, et al. Lightweight Vision Transformer with Cross Feature Attention[J]. arXiv preprint arXiv:2207.07268, 2022.
[2]Huang T, Huang L, You S, et al. LightViT: Towards Light-Weight Convolution-Free Vision Transformers[J]. arXiv preprint arXiv:2207.05557, 2022.
论文简介:
[1]本文提出了Cross Feature Attention(XFA) 以降低 Transformer 的计算成本,并结合高效的mobile CNNs形成一种新颖的高效轻量级 CNN-ViT 混合模型 XFormer,可作为通用主干学习全局和局部表示。实验结果表明,XFormer 在不同的任务和数据集上优于众多基于 CNN 和 ViT 的模型。在 ImageNet-1K 数据集上,XFormer 使用 550 万个参数实现了 78.5% 的 top-1 准确率,在相似数量的参数下,比 EfficientNet-B0(基于 CNN)和 DeiT(基于 ViT)的准确率分别提高了 2.2% 和 6.3%。在 Cityscapes 数据集上,只有一个简单的 all-MLP 解码器,XFormer 实现了 78.5 的 mIoU 和 15.3 的 FPS,超过了最先进的轻量级分割网络。
[2]由于缺乏归纳偏置,视觉Transformer(ViT)通常被认为不如CNN轻量化。因此,最近的工作将卷积作为一个即插即用模块,并将其嵌入各种ViT counterparts中。本文认为卷积核执行信息聚合以连接所有tokens,然而,如果这种显式聚合能够以更均匀的方式发挥作用,那么对于轻量级ViT来说,它们实际上是不必要的。受此启发,本文提出LightViT作为一个新的轻量级ViT系列,以在没有卷积的纯Transformer块上实现更好的精度效率平衡。具体来说,本文在ViT的自注意力和前馈网络(FFN)中引入了一种全局但有效的聚合方案,其中引入了额外的可学习tokens来捕获全局依赖性;对tokens嵌入施加了二维通道和空间注意力。实验表明,模型在图像分类、目标检测和语义分割任务方面取得了显著的改进。例如,LightViT-T在ImageNet上仅用0.7G FLOPs就实现了78.7%的精度,比PVTv2-B0快8.2%,而在GPU上快11%。
Part2
分享者:阳斯敏
分享内容:
[1] Roy S, Koehler G, Ulrich C, et al. MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation[J]. arXiv preprint arXiv:2303.09975, 2023.
[2] Chen J, Kao S, He H, et al. Run, Don't Walk: Chasing Higher FLOPS for Faster Neural Networks[J]. arXiv preprint arXiv:2303.03667, 2023.
论文简介:
[1]ConvNeXT是一种纯卷积模型,其灵感来自Vision Transformers的设计,性能出众。本文对此进行了改进,设计一个现代化且可扩展的卷积架构——MedNeXt,该架构针对医学图像分割领域进行了针对性的优化。MedNeXt是一种受Transformer启发的大卷积核分割网络,其基于类ConvNeXt风格的纯3D编解码架构(Encoder-Decoder Architecture)。在这项工作中,作者设计了一种带残差的ConvNeXt上采样和下采样块,以保持跨尺度的语义丰富性,同时应用了一种新技术通过对小卷积核网络进行上采样来迭代增加kernel大小,以防止有限医疗数据的性能饱和。最后,通过对MedNeXt架构的不同尺度(depth, width, kernel size)进行缩放,本文方法在CT和MRI模态以及不同数据集大小的4个任务上均实现了最先进的性能。
[2]为了设计快速神经网络,许多工作都集中在减少浮点运算(FLOPs)的数量上。然而,作者观察到FLOPs的这种减少不一定会带来延迟的类似程度的减少。这主要源于每秒低浮点运算(FLOPS)效率低下。为了实现更快的网络,作者重新回顾了FLOPs的运算符,并证明了如此低的FLOPS主要是由于运算符的频繁内存访问,尤其是深度卷积。因此,本文提出了一种新的partial convolution(PConv),通过同时减少冗余计算和内存访问可以更有效地提取空间特征。本文基于PConv进一步提出FasterNet,它在广泛的设备上实现了比其他网络高得多的运行速度,而不影响各种视觉任务的准确性。例如,在ImageNet-1k上小型FasterNet-T0在GPU、CPU和ARM处理器上分别比MobileVit-XXS快3.1倍、3.1倍和2.5倍,同时准确度提高2.9%。大模型FasterNet-L实现了令人印象深刻的83.5%的TOP-1精度,与Swin-B不相上下,同时GPU上的推理吞吐量提高了49%,CPU上的计算时间也节省了42%。
Part3
分享者:欧阳成州
分享内容:
[1] Xiao Wang, Zhaoyuan Ding,et al. Deepro-Glu: combination of convolutional neural network and Bi-LSTM models using ProtBert and handcrafted features to identify lysine glutarylation sites[J]. Briefings in Bioinformatics, Volume 24, Issue 2, March 2023, bbac631.
论文简介:
[1]赖氨酸戊二酰化(Lysine glutarylation, Kglu)是一种新近发现的蛋白质翻译后修饰,在线粒体功能、氧化损伤等方面发挥重要作用。现有的鉴定戊二酰化位点的生物实验方法往往费时且昂贵。因此,迫切需要开发高效、准确识别戊二酰化位点的计算方法。现有的计算方法大多仅利用手工特征构建预测模型,没有考虑预训练蛋白质语言模型对预测性能的积极影响。在此基础上,我们开发了一种集成深度学习预测器deep- glu,该预测器将卷积神经网络和双向长短期记忆网络结合起来,利用深度学习特征和传统手工特征来预测赖氨酸戊二化位点。深度学习特征是由预先训练的蛋白质语言模型ProtBert生成的,手工制作的特征包括基于序列的特征、基于物理化学性质的特征和进化信息的特征。此外,通过学习适当的注意权重,使用注意机制有效地整合了深度学习特征和手工特征。10次交叉验证和独立测试表明,deepro-glu比最先进的方法具有竞争力或更好的性能。