2025年春季学期视觉计算实验室第5次论文研读预告

时间:2025年3月29日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:邓子祎、杨阳

Part 1

分享者:邓子祎

分享内容:

[1] Z. Chen et al., "StuGPTViz: A Visual Analytics Approach to Understand Student-ChatGPT Interactions," in IEEE Transactions on Visualization and Computer Graphics, vol. 31, no. 1, pp. 908-918, Jan. 2025, doi: 10.1109/TVCG.2024.3456363.

[2] L. Gao et al., "Fine-Tuned Large Language Model for Visualization System: A Study on Self-Regulated Learning in Education," in IEEE Transactions on Visualization and Computer Graphics, vol. 31, no. 1, pp. 514-524, Jan. 2025, doi: 10.1109/TVCG.2024.3456145.

论文简介:

[1]大语言模型(LLMs)在智能可视化系统中展现了巨大潜力,尤其是在领域特定应用中。然而,将LLMs整合到可视化系统中面临诸多挑战,本文将这些挑战归纳为三类对齐问题:领域问题与LLMs的对齐、可视化与LLMs的对齐、以及交互与LLMs的对齐。同时,为使用智能可视化系统来支持初学者的自我调节学习(SRL),对齐问题在教育领域成为尤为重要的挑战,为解决上述对齐问题,本文提出了一种框架,并概述了工作流程,以指导微调后的LLMs在领域特定任务中增强可视化交互。进一步地,本文将该框架应用于教育领域,并推出了Tailor-Mind——一个旨在促进人工智能初学者SRL的交互式可视化系统。基于初步研究,本文明确了SRL任务和微调目标,以指导可视化设计和微调数据集的构建。将可视化与微调后的LLMs对齐后,Tailor-Mind作为一位支持交互式推荐功能的个性化导师,帮助初学者更好地实现学习目标。最后,模型性能评估和用户研究表明,Tailor-Mind显著提升了自我调节学习体验,有效验证了所提出的框架。

[2] 通过在教育领域整合大语言模型(尤其是ChatGPT),并引入创新的对话式学习方法,有望彻底改变学生的学习体验。为了帮助学生在教育场景中充分利用ChatGPT的功能,理解学生与ChatGPT的互动模式对教师而言至关重要。然而,由于缺乏学生与ChatGPT的对话的数据集,以及识别和分析对话中演变的互动模式非常复杂,这一目标面临挑战。为了应对这些挑战,本文收集了一个硕士级别数据可视化课程中48名学生在一学期内与ChatGPT交互的对话数据,并基于认知水平和主题分析的相关文献,开发了一套编码方案,用于分类学生与ChatGPT的互动模式。进一步地,本文提出了一个名为StuGPTViz的可视分析系统,该系统能够在多个尺度上追踪和比较学生提问的时间模式以及ChatGPT回应的质量,从而帮助教师获得重要的教学洞察。最后,本文通过六位数据可视化教师的专家访谈和三个案例研究验证了系统的有效性,结果表明,StuGPTViz能够增强教育者对ChatGPT教学价值的理解。

Part 2

分享者:杨阳

分享内容:

[1] Lei M, Wu H, Lv X, et al. ConDSeg: A General Medical Image Segmentation Framework via Contrast-Driven Feature Enhancement[J]. arXiv preprint arXiv:2412.08345, 2024.

[2] Rahman M M, Munir M, Marculescu R. Emcad: Efficient multi-scale convolutional attention decoding for medical image segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 11769-11779.

论文简介:

[1] 医学图像分割在临床决策、治疗规划和疾病追踪中发挥着重要作用。然而,该领域仍面临两大挑战。一方面,医学图像中前景与背景常存在"软边界",加之光照不足和低对比度,进一步降低了图像内目标与背景的可区分性。另一方面,医学图像中普遍存在共现现象,这些特征的学习会误导模型的判断。为解决这些挑战,本文提出了对比驱动的医学图像分割通用框架ConDSeg。首先,本文开发了名为"一致性增强"的对比训练策略,旨在提升编码器在不同光照和对比度场景下的鲁棒性,使模型能在不利环境下提取高质量特征。其次,本文提出了语义信息解耦模块,能够将编码器特征分解为前景、背景和不确定区域三部分,在训练过程中逐步获得减少不确定性的能力。随后,对比驱动特征聚合模块通过对比前景与背景特征,指导多层次特征融合和关键特征增强,进一步明确待分割目标。本文还提出了尺寸感知解码器,通过解决解码器的尺度单一性问题,准确定位图像中不同尺寸的目标,从而避免对共现特征的错误学习。在涵盖三种医学场景的五个数据集上的大量实验表明,本文的方法达到了最先进的性能,证明了其先进性和对各类医学图像分割场景的广泛适用性。

[2] 高效且有效的解码机制在医学图像分割中至关重要,尤其在计算资源受限的场景下。然而,这些解码机制通常伴随着高昂的计算成本。为解决这一问题,本文提出了EMCAD(高效多尺度卷积注意力解码器),该模型旨在同时优化性能和计算效率。EMCAD通过独特的跨通道多尺度深度可分离卷积块,显著增强了特征图的多尺度表达能力。同时,该模型采用通道注意力、空间注意力和大核分组门控注意力机制,能有效捕捉复杂的空间关系并聚焦于关键区域。得益于分组卷积和深度可分离卷积的设计,EMCAD展现出卓越的效率和可扩展性(例如,当使用标准编码器时仅需191万个参数和0.381G FLOPs)。本文在涵盖六类医学图像分割任务的12个数据集上进行严格评估,结果显示EMCAD以参数量减少79.4%、计算量降低80.3%的优势,达到了最先进的(SOTA)性能。此外,EMCAD对不同编码器的强适应性和对各类分割任务的广泛适用性,进一步确立了其作为高效精准医学影像分析工具的潜力,推动了该领域的发展。