2024年春季学期视觉计算实验室第三次论文研读预告

时间:2024年3月15日(周五) 09: 30

地点:望江校区基础教学楼B座318实验室

分享者:蒋林呈、甘霖

Part1

分享者:蒋林呈

分享内容:

[1] Liu Y, Zhang C, Wang Y, et al. Universal Segmentation at Arbitrary Granularity with Language Instruction[J]. arXiv preprint arXiv:2312.01623, 2023.

[2] Deng X, Zhang P, Liu W, et al. Recurrent multi-scale transformer for high-resolution salient object detection[C]//Proceedings of the 31st ACM International Conference on Multimedia. 2023: 7413-7423.

论文简介:

[1] 尽管近年来取得了重大进展,但专业分割方法仅限于特定任务和数据分布。重新训练一个新的模型以适应新的场景或设置需要昂贵的计算时间和时间成本,这增加了对满足各种粒度的通用和通用分割模型的需求。尽管已经进行了一些尝试来统一不同的分割任务或对各种场景的泛化,但范式和输入输出空间定义的限制使得它们很难以任意粒度准确地理解内容。为此,作者提出了 UniLSeg,这是一种通用分割模型,可以在语言指令的指导下在任何语义级别执行分割。为了训练 UniLSeg,作者将来自不同分布的一组任务重组为一个统一的数据格式,其中输出具有将文本描述分割目标的图像作为输入,并输出相应的掩码。结合用于利用大量未标记数据的自动注释引擎,UniLSeg 在各种任务和数据集上都取得了出色的性能,超过了专家和统一的分割模型。

[2] 显著目标检测(SOD)旨在识别和分割图像或视频中最显著的对象。作为一个重要的预处理步骤,它在多媒体和视觉任务中具有许多潜在的应用。随着成像设备的进步,高分辨率图像的SOD最近有很大的需求。然而,传统的SOD方法在很大程度上局限于低分辨率图像,难以适应高分辨率SOD (HRSOD)的发展。尽管出现了一些 HRSOD 方法,但没有足够的数据集进行训练和评估。此外,目前的HRSOD方法通常产生不完整的目标区域和不规则的对象边界。为了解决上述问题,在本文中,作者首先提出了一个新的 HRS10K 数据集,该数据集包含 10,500 个高质量的带注释的图像,分辨率为 2K-8K。此外,为了提高 HRSOD 性能,作者提出了一种新颖的循环多尺度 Transformer (RMFormer),它反复利用共享的 Transformer 和多尺度细化架构。因此,高分辨率显著图可以在低分辨率预测的指导下生成。在高分辨率和低分辨率基准上的广泛实验证明了所提出的框架的有效性和优越性。

Part2

分享者:甘霖

分享内容:

[1] Le He, Li Zhang, Qiang Sun, XiangTian Lin, A generative adaptive convolutional neural 1network with attention mechanism for driver fatigue detection with class-imbalanced and insufficient data. Behavioural Brain Research, 2024

[2] L. Liu, Y. Wei, Q. Zhang and Q. Zhao, SSCRB: Predicting circRNA-RBP Interaction Sites Using a Sequence and Structural Feature-Based Attention Model, IEEE Journal of Biomedical and Health Informatics, March 2024

论文简介:

[1] 过去几年来,疲劳驾驶已成为交通事故的主要原因之一,因此有必要开发驾驶员疲劳检测系统。然而,现有的许多方法都涉及繁琐的手动参数调整,这一过程既耗时又会导致特定任务模型的产生。另一方面,大多数疲劳识别研究都是基于类平衡和充分的数据,而从类不平衡和不充分的数据中有效 "挖掘 "有意义的信息用于疲劳识别仍是一个挑战。在本文中,作者提出了两种新型模型:基于注意力的残差自适应多尺度全卷积网络-长短期记忆网络(ARMFCN-LSTM)和生成式 ARMFCN-LSTM(GARMFCN-LSTM),旨在解决这一问题。ARMFCN-LSTM 擅长通过自适应多尺度时间卷积自动提取多尺度表征,同时通过 LSTM 捕捉时间依赖性特征。GARMFCN-LSTM 将带有梯度惩罚的 Wasserstein GAN 集成到 ARMFCN-LSTM 中,通过缓解数据稀缺和解决类不平衡问题来提高驾驶员疲劳检测性能。实验结果表明,ARMFCN-LSTM 在类平衡的 EEG 数据集上的驾驶员疲劳检测分类准确率最高,达到 95.84%;GARMFCNLSTM 在类不平衡的 EOG 数据集上的分类准确率提高到 84.70%,超过了其他竞争方法。因此,所提出的模型有望在在线驾驶员疲劳检测系统中得到进一步应用。

[2] 预测环状 RNA(circRNA)与 RNA 结合蛋白(RBPs)之间的相互作用位点对于调节疾病和发现新的治疗方法至关重要。由于可以获得全基因组的 circRNA 结合事件数据,计算模型已被广泛用于预测 circRNA-RBP 相互作用位点。然而,有效获取多尺度 circRNA 特征以提高预测准确性仍是一个具有挑战性的问题。在本研究中,论文提出了一种预测 circRNA-RBP 相互作用位点的轻量级模型 SSCRB。论文的模型提取了 circRNA 的序列和结构特征,并通过注意力机制纳入了多尺度特征。此外,论文还通过组合多个子模型开发了一个集合模型,以提高预测性能和普适性。论文在 37 个 circRNA 数据集上对 SSCRB 进行了评估,并将其与其他最先进的方法进行了比较。SSCRB 的平均 AUC 为 97.66%,证明了它的高效性和鲁棒性。SSCRB 在预测准确性方面优于其他方法,同时所需的计算资源也大大减少。