2024年春季学期视觉计算实验室第十五次论文研读预告

时间:2024年6月21日(本周五) 09: 30

地点:望江校区基础教学楼B座318实验室

分享者:甘霖、杨璐歌

Part1

分享者:杨璐歌

分享内容:

[1] Y. Guo, H. Shao, C. Liu, K. Xu and X. Yuan, "PrompTHis: Visualizing the Process and Influence of Prompt Editing during Text-to-Image Creation," in IEEE Transactions on Visualization and Computer Graphics, doi: 10.1109/TVCG.2024.3408255.

[2] F. Cheng et al., "VBridge: Connecting the Dots Between Features and Data to Explain Healthcare Models," in IEEE Transactions on Visualization and Computer Graphics, vol. 28, no. 1, pp. 378-388, Jan. 2022, doi: 10.1109/TVCG.2021.3114836.

论文简介:

[1] 生成式文本到图像模型,允许用户通过文本提示创建有吸引力的图像,近年来受到了极大的欢迎。然而,大多数用户对此类模型的工作方式了解有限,往往依靠试错策略来达到满意的效果。提示历史记录包含了丰富的信息,可以为用户提供关于已探索的内容以及提示变化如何影响输出图像的见解,但很少有研究关注支持用户的这种过程的可视分析。本文提出了图像变异图( Image Variant Graph ),这是一种新颖的视觉表征,旨在支持比较提示-图像对和探索编辑历史。图像变异图模型将差异提示为对应图像之间的边缘,并通过投影来表示图像之间的距离。基于该图,本文通过与艺术家的共同设计开发了PrompTHis系统。通过对提示历史的回顾和分析,用户可以更好地理解提示变化的影响,并对图像生成进行更有效的控制。定量的用户研究和定性访谈表明,PrompTHis可以帮助用户回顾提示历史,理解模型,规划创意过程。

PrompTHis系统界面

[2] 机器学习( Machine Learning,ML )越来越多地应用于电子健康记录( Electronic Health Records,EHRs )来解决临床预测任务。尽管许多ML模型表现良好,但模型的透明性和可解释性问题限制了其在临床实践中的应用。在临床环境中直接使用现有的可解释ML技术可能是具有挑战性的。通过文献调研和与6名平均具有17年临床经验的临床医生的合作,本文确定了3个关键挑战,包括临床医生对ML特征的不熟悉、缺乏背景信息和需要队列级别的证据。在迭代设计过程之后,本文进一步设计和开发了VBridge,一个可视分析工具,它将ML解释无缝地集成到临床医生的决策工作流程中。该系统包括一种新颖的基于贡献的特征解释的分层显示和丰富的交互,这些交互连接了ML特征、解释和数据之间的点。本文通过两个案例研究和对4名临床医生的专家访谈证明了VBridge的有效性,表明将模型解释与患者的情境记录进行可视化关联可以帮助临床医生在进行临床医生决策时更好地解释和使用模型预测。本文进一步推导了一份设计建议清单,用于开发未来可解释的ML工具,以支持临床决策。

VBridge系统界面

Part2

分享者:甘霖

分享内容:

[1] Zhao, Pengbo and Lian, Cheng and Xu, Bingrong and Zeng, Zhigang, Multiscale Global Prompt Transformer for EEG-Based Driver Fatigue Recognition. IEEE Transactions on Automation Science and Engineering, 2024

[2] Wang W, Sun Z, Liu D, Zhang H, Li J, Wang X, Zhou Y. MAHyNet: Parallel Hybrid Network for RNA-Protein Binding Sites Prediction Based on Multi-Head Attention and Expectation Pooling. IEEE/ACM Trans Comput Biol Bioinform. 2024

论文简介:

[1] 驾驶员疲劳是一个关键因素,导致交通事故死亡率高。脑电图(EEG)是客观评价疲劳状态最可靠的指标之一,但从中识别疲劳驾驶状态仍然是一个基本且具有挑战性的问题。在本文中,作者提出了一种多尺度全局提示转换器(MsGPT)深度学习模型,该模型可以端到端自动识别驾驶员疲劳。首先,论文构建了一个基于 Transformer 的多尺度卷积补丁嵌入 (MC-PatchEmbed) 的多尺度内级联框架,并通过在整个过程中添加全局提示标记来指导全局局部特征交互。其次,为了有效地整合尺度内和尺度间特征信息,该工作通过聚合尺度内的输出设计了一个混合标记,其中包括丰富的多尺度特征信息的多尺度。此外,在多头自注意力 (MSA) 中引入了一种新的可学习查询,以将计算复杂度降低到线性级别。在SEED-VIG数据集和具有主体内和主体间设置的SADT数据集上进行了实验,以评估MsGPT的性能,结果表明MsGPT在基于脑电图的疲劳驾驶分类评价指标方面大大优于各种方法。

MsGPT架构

[2] RNA结合蛋白 (RBPs) 可以通过与特定 RNA 相互作用来调节生物学功能,并在许多生命活动中发挥重要作用。因此,RNA-蛋白质结合位点的快速识别对于功能注释和位点定向诱变至关重要。在这项工作中,提出了一种新的并行网络,该网络集成了多头注意力机制和期望池,称为 MAHyNet。MAHyNet 混合卷积神经网络 (CNN) 和门控循环神经网络 (GRU) 的左分支网络来提取 one-hot 的特征。右分支网络是一个两层CNN网络来分析RNA碱基的物理化学性质。具体来说,多头注意力机制是多个独立注意力层的计算集合,可以从多个维度中提取特征信息。期望池将概率思维与全局池相结合。这种方法有助于减少模型参数并提高模型性能。CNN 和 GRU 的组合可以进一步提取序列中的高级特征。此外,研究表明适当的超参数对模型性能产生积极影响。物理化学特性可用于补充表征信息以提高模型性能。实验结果表明,MAHyNet 的性能优于其他模型。

MAHyNet架构