时间: 2022年6月16日(周四)09 : 30
地点: 四川大学望江校区基础教学楼B座318实验室
研读成员:刘尚松 李长林
Part1
分享者:刘尚松
分享内容:
[1]. Liu S, Xiao J, Liu J, et al. Visual diagnosis of tree boosting methods[J]. IEEE transactions on visualization and computer graphics, 2018, 24(1): 163-173.
[2]. Zhao X, Wu Y, Lee D L, et al. iForest: Interpreting random forests via visual analytics[J]. IEEE Transactions on Visualization and Computer Graphics, 2019, 25(1): 407-416.
论文简介:
[1] 提升树是一种高效且广泛使用的机器学习方法,该方法结合弱学习器(通常是决策树)生成强学习器。然而,开发高性能提升树模型是一个耗时的过程,需要大量的试错实验。针对这个问题,本文开发了可视化诊断工具BOOSTVis,帮助专家快速分析诊断提升树模型的训练过程。 作者设计了时间混淆矩阵可视化,并将其与t-SNE投影和树可视化相结合。这些可视化组件协同工作以全面地概述提升树模型,并能够有效诊断不满意的训练过程。在Otto集团产品分类挑战赛数据集上进行的两个案例研究表明,BOOSTVis 可以提供信息反馈和指导,以促进对提升树算法的理解和诊断。
[2] 随机森林是由许多独立的决策树组成的集成模型,通过将输入提供给内部树并汇总它们的输出来生成预测。该集成特性使得随机森林的表现优于任何单个决策树。但是,这也导致模型的可解释性较差,这极大地阻碍了该模型在需要透明和可解释性预测的领域中的应用,例如医疗诊断和金融欺诈检测。解释性的挑战源于其所包含决策树的多样性和复杂性。每棵决策树都有其独特的结构和属性,例如树中使用的特征和每个树节点中的特征阈值。因此,数据输入可能导致多种决策路径。为了理解最终预测是如何实现的,需要理解和比较所有树结构上下文中的所有决策路径,这对任何用户来说都是一个巨大的挑战。因此,本文提出了一个可视分析系统,旨在解释随机森林模型和预测。除了为用户提供所有的树信息外,本文还总结了随机森林中的决策路径,最终反映了模型的工作机制,并减轻了用户对解释性的认知负担。为了证明系统的有效性,本文进行两个用例分析和定性的用户研究。
Part2
分享者:李长林
分享内容:
[1]. Jin Z, Wang Y, Wang Q, et al. Gnnlens: A visual analytics approach for prediction error diagnosis of graph neural networks[J]. IEEE Transactions on Visualization and Computer Graphics, 2022.
[2]. Xuan X, Zhang X, Kwon O H, et al. VAC-CNN: A Visual Analytics System for Comparative Studies of Deep Convolutional Neural Networks[J]. IEEE Transactions on Visualization and Computer Graphics, 2022, 28(6): 2326-2337.
论文简介:
[1] 图神经网络(GNN)旨在将深度学习技术扩展到图数据,近年来在图分析任务(例如节点分类)方面取得了重大进展。然而,与卷积神经网络 (CNN) 和循环神经网络 (RNN) 等其他深度神经网络类似,GNN 的行为就像一个黑匣子,其细节对模型开发人员和用户隐藏。因此,很难诊断 GNN 可能存在的错误。尽管对 CNN 和 RNN 进行了许多视觉分析研究,但很少有研究解决 GNN 面临的挑战。本文使用交互式视觉分析工具 GNNLens 填补了研究空白,以帮助模型开发人员和用户理解和分析 GNN。具体来说,Parallel Sets View 和 Projection View 使用户能够快速识别和验证错误预测集中的错误模式;图形视图和特征矩阵视图提供了对各个节点的详细分析,以帮助用户形成关于错误模式的假设。由于 GNN 联合对图结构和节点特征进行建模,我们通过比较三种模型的预测来揭示两种信息的相对影响:GNN、多层感知器 (MLP) 和不使用特征的 GNN (GNNWUF)。两个案例研究和对领域专家的采访证明了 GNNLens 在促进理解 GNN 模型及其错误方面的有效性。
[2] 卷积神经网络 (CNNs) 近年来的快速发展引发了许多机器学习 (ML) 应用的重大突破。因此,理解和比较各种可用CNN模型的能力至关重要。可视化每个模型的定量特征 (例如分类准确性和计算复杂性) 的常规方法不足以更深入地理解和比较不同模型的行为。此外,大多数用于评估CNN行为的现有工具仅支持两个模型之间的比较,并且缺乏根据用户需求定制分析任务的灵活性。本文介绍了一个可视化分析系统vac-cnn (用于比较CNNs的可视化分析),该系统支持对单个CNN模型的深入检查以及对两个或多个模型的比较研究。比较大量 (例如,数十个) 模型的能力尤其使我们的系统与以前的系统区分开。通过精心设计的模型可视化和解释支持,vac-cnn促进了高度交互式的工作流程,该工作流程在每个分析阶段都能及时呈现定量和定性信息。我们通过两个用例和一个使用ImageNet数据集上的图像分类任务的初步评估研究,展示了vac-cnn在帮助ML新手评估和比较多个CNN模型方面的有效性。