2024年秋季学期视觉计算实验室第八次论文研读预告

时间:2024年11月09日(周六) 09: 00

地点:望江校区基础教学楼B座318实验室

分享者:魏楷臻、成磊峰

Part 1

分享者:魏楷臻

分享内容:

[1] Changjian Chen, Yukai Guo, Fengyuan Tian, Shilong Liu, Weikai Yang, Zhaowei Wang, Jing Wu, Hang Su, Hanspeter Pfister, and Shixia Liu. A Unified Interactive Model Evaluation for Classification, Object Detection, and Instance Segmentation in Computer Vision. IEEE Transactions on Visualization and Computer Graphics, Volume 30, Issue 1, pp.76-86 (Jan. 2024).

[2] Xian Teng , Yongsu Ahn , and Yu-Ru Lin. VISPUR: Visual Aids for Identifying and Interpreting Spurious Associations in Data-Driven Decisions. IEEE Transactions on Visualization and Computer Graphics, Volume 30, Issue 1, pp.219-229 (Jan. 2024).

论文简介:

[1] 现有的计算机视觉模型评估工具主要集中在对分类模型的评估上,对更复杂的模型(如目标检测和实例分割)的模型评估存在空白。本文提出了一个开源的视觉分析工具Uni-Evaluator,以支持计算机视觉中目标分类、目标检测和实例分割的统一模型评估方法。其关键思想是将不同任务中的离散和连续预测表述为统一的概率分布。基于这些分布,开发了1)混淆矩阵可视化,提供模型整体性能的概述;2)表格可视化,以识别模型表现不佳的问题数据子集;3)网格可视化,展示感兴趣的样本。这些可视化工作结合在一起,实现从全局概览到单个样本的模型评估。

[2] 大数据和机器学习共同赋予人类基于数据生成决策的能力。然而,由于混杂因素和亚组的异质性,它们捕获的许多经验关联可能是虚假的。著名的辛普森悖论就是这样一种现象,即群体层面的联想和亚群体层面相互矛盾,导致认知混乱,难以做出充分的解释和决策。本文提出了VISPUR可视化分析系统,提供一个因果分析框架和一个“去悖论”工作流程来处理虚假的关联。包括了一个可以自动识别可能的混淆因素的Confounder Dashboard,和一个基于亚组模式并且可以比较潜在影响因子的Subgroup Viewer。此外,作者还提出了一个Reasoning Storyboard,它使用基于流的方法来说明矛盾的现象;以及一个交互式决策诊断面板,帮助确保负责任的决策。通过专家访谈和受控用户实验,定性和定量结果表明本文提出的“去悖论”工作流和设计的可视化分析系统在帮助人类用户识别和理解虚假关联以及做出负责任的因果决策方面是有效的。

Part2

分享者:成磊峰

分享内容:

[1] Tica Lin, Hanspeter Pfister, Jui-Hsien Wang. GenLens: A Systematic Evaluation of Visual GenAI Model Outputs. arXiv.2402.03700.2024.

[2] Yingchaojie Feng, Xingbo Wang, Kam Kwai Wong,etl. PromptMagician: Interactive Prompt Engineering for Text-to-Image Creation. arXiv.2307.0 9036.2023.

论文简介:

[1] 生成式人工智能(GenAI)模型在计算机视觉领域的快速发展需要有效的评估方法来保证其质量和公平性。现有工具主要关注数据集质量保证和模型可解释性,在模型开发过程中对GenAI输出的评估留下了很大的空白。当前的实践通常依赖于开发人员的主观视觉评估,缺乏可伸缩性和通用性。本文通过进行GenAI模型开发的形成性研究来弥补这一差距。研究发现导致了GenLens的开发,这是一个可视化分析界面,用于在模型开发的早期阶段对GenAI模型输出进行系统评估。GenLens提供了一种可量化的方法,用于概述和注释故障案例,自定义问题标签和分类,以及聚合来自多个用户的注释以增强协作。与模型开发人员一起进行的用户研究表明,GenLens有效地增强了工作流程,证明了高满意度和将其集成到实践中的强烈意图。这项研究强调了评估工具在GenAI开发中的重要性,有助于促进公平和高质量的GenAI模型。

[2] 生成文本到图像模型,因其基于自然语言提示生成高质量图像的强大能力而受到公众的广泛欢迎。然而,由于自然语言的复杂性和模糊性,为期望的图像开发有效的提示可能具有挑战性。本文研究提出了提示魔术师,一个视觉分析系统,帮助用户探索图像结果和完善输入提示,系统的主干是一个提示推荐模型,它将用户提示作为输入,检索相似的提示图像对,并识别特殊(重要和相关的)提示关键字。为了方便交互式提示的改进,提示魔术师引入了多级可视化,用于检索到的图像和推荐的关键字的跨模式嵌入,并支持用户指定多个标准进行个性化探索。两个使用场景、用户研究和专家访谈证明了我们系统的有效性和可用性,表明它促进了提示工程,并提高了生成文本到图像模型的效率。