2024年秋季学期视觉计算实验室第十五次论文研读预告

时间:2024年12月28日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:魏楷臻、王艺蒙

Part 1

分享者:魏楷臻

分享内容:

[1] Weikai Yang, Yukai Guo, Jing Wu, Zheng Wang, Lan-Zhe Guo, Yu-Feng Li, and Shixia Liu. Interactive Reweighting for Mitigating Label Quality Issues. IEEE Transactions on Visualization and Computer Graphics, Volume 30, Issue 3, pp.1837-1852 (Mar. 2024).

[2] Fred Hohman, Chaoqun Wang, Jinmook Lee, Jochen Görtler, Dominik Moritz, Jeffrey Bigham, Zhile Ren, Cecile Foret, Qi Shan, and Xiaoyi Zhang. Talaria: Interactively Optimizing Machine Learning Models for Efficient Inference. Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems (May. 2024).

论文简介:

[1] 噪声标签和不平衡的数据分布等常见的标签质量问题均会对模型的性能造成负面影响,降低模型的性能表现。现有的自动重加权方法通过识别训练集的噪声标签给验证集带来的负面影响,从而为这些标签存在问题的训练样本赋予较低的权重来消除标签质量问题。然而,当验证样本的质量本身较低时,这些方法无法达到令人满意的效果。为了解决这个问题,论文提出了Reweighter,一个用于样本重加权方法的可视化分析工具。验证样本和训练样本之间的重权关系被建模为Bipartite Graph。在此基础上,作者又提出了一种验证样本改进的方法,以提高验证样本的质量。作者开发了一种基于聚类的Bipartite Graph可视化视图来说明重权关系,并支持对验证样本和重加权结果的交互式调整。通过将调整结果转化为样本改进方法的约束条件,进一步改进验证样本。作者通过通过定量评价和两个案例研究证明了Reweighter在改善重加权结果方面的有效性。

[2] 设备端机器学习 (ML) 将推理计算从云端转移到个人设备,从而保护用户隐私并在边缘端实现智能体验。然而,在资源有限的设备上使用模型带来了一个重大的技术挑战:工程师需要优化模型并平衡硬件指标,例如模型大小、延迟和功耗。为了帮助工程师创建高效的 ML 模型,作者设计并开发了 Talaria,这是一个模型推理可视化和优化系统。Talaria 使工程师能够将模型编译到目标硬件平台上,以交互方式可视化模型统计数据,并进行模拟优化,测试不同优化方法对推理指标的影响。自苹果公司两年前内部部署以来,作者使用三种方法评估了 Talaria:(1) 日志分析,800多个工程师提交了3,600多个模型的性能提升记录;(2) 对 26 名用户进行调查,评估20个Talaria功能的有效性;(3) 对 7 位最活跃的用户进行访谈,了解他们使用Talaria的体验。

Part 2

分享者:王艺蒙

分享内容:

[1] Y. Yan, Y. Hou, Y. Xiao, R. Zhang and Q. Wang, " KNowNEt: Guided Health Information Seeking from LLMs via Knowledge Graph Integration," in IEEE Transactions on Visualization and Computer Graphics, vol. 31, no. 1, pp. 547-557, Jan. 2025.

[2] FG. Li, J. Wang, Y. Wang, G. Shan and Y. Zhao, "An In-Situ Visual Analytics Framework for Deep Neural Networks," in IEEE Transactions on Visualization and Computer Graphics, vol. 30, no. 10, pp. 6770-6786, Oct. 2024.

论文简介:

[1] 在搜寻健康相关的信息时,人们对大型语言模型(LLMs)的依赖性日益增加,然而,由于语料中存在错误信息的可能性以及这些健康主题本身的复杂性,仅使用大语言模型可能会带来重大风险。本文介绍了KnowNet这一可视化系统,它将大型语言模型与知识图谱(KG)相结合,以提高健康信息的准确性并实现结构化探索。具体来说,在提高准确性方面,KnowNet会从大型语言模型的输出结果中提取三元组(例如实体及其关系),并将它们映射到外部知识图谱中经过验证的信息以及有支撑的证据上。在结构化探索方面,KnowNet依据知识图谱中当前所探索实体的邻域信息提供下一步的建议,旨在引导人们进行全面理解,避免遗漏关键内容。为了能够进一步利用知识图谱中的结构化数据以及大型语言模型的非结构化输出进行推理,KnowNet还针对某一主题的理解具象化为逐步搭建图形可视化的过程。通过引入一种渐进式的图形可视化方法,用以追踪过往的查询情况,并将当前查询、搜索历史以及下一步建议联系起来。

[2] 过去十年,深度神经网络(DNN)在各个领域的应用中都表现卓越。然而,由于它参数数量庞大,因此训练出高质量的 DNN 仍然是一项困难的任务。可视化在辅助解决这种问题时展现出巨大的潜力,最近许多有助于DNN训练和解释的可视化工作证明了这一点。这些工作通常采用记录训练相关数据并进行事后分析的策略,用户可以根据离线分析的结果,进一步训练或微调模型。不过,这一策略并不能应对深度神经网络日益增加的复杂性,原因如下:(1)通过训练收集的数据通常太多,无法完全存储;(2)巨大的 I/O 开销会显著影响训练效率;(3)事后分析不允许快速的人工干预。为了应对这些挑战,本文提出了一种用于DNN训练的原位可视化和分析框架。具体来说,本文采用特征提取算法来减少原位训练相关数据的大小,并将减少的数据用于实时可视化分析。本框架将模型训练的状态实时展现给模型架构人员,从而实现按需进行人工干预以指导训练。