7月23日,第十届中国可视化与可视分析大会继续进行,今天的会议内容主要包括专题报告,论文报告和校企面对面以及红色文化体验(重庆1949)
专题报告9:文献与学术数据可视分析
报告1:基于文献数据的领域主题可视分析方法
报告者:单桂华,中科院计算机信息网络中心 研究员
通过科学文献数据分析领域主题的发展态势和其实体的科研影响力和竞争力对科研决策、科技评价和科研合作具有重要的导向作用。可视化作为关键技术之一,已经成为贯穿文献主题分析全流程的重要分析手段。本报告介绍了在主题模型可视化调优、文献可视化检索、领域主题态势层次化分析,以及科研实体的影响力、竞争力评估与对比分析等方面相关研宄和应用。
报告2:基于自引图的学者画像可视分析
报告者:时磊,北京航空航天大学 教授
学者影响力量化评估是学术界面临的重要课题。当前主流平台专注于面向学者排名的影响力评估,但难以提供结构化学者画像以支持学术脉络分析、职业发展理解等关键任务。本报告讲述了基于自引图的学者图谱分析框架 GeneticFlow,结合导师-学生关系挖掘、引用内容分类、定制化图神经网络,在亿級学者大数据上开展数据挖掘与可视分析。在预测 ACMFellow 等高端人才的任务中,GeneticFlow 显著优于 h-index 等传统方法,同时揭示了高影啊力宇者的典坐特征。
报告3:基于语义的学术数据分析
报告者:陶钧,中山大学 副教授
学术产出与影响常依赖于学术数据的分析,然而使用简单的聚合性指标往往难以全面描述学术效据中的丰富内涵。可视分析通过用户与系统的交互,能从多个角度剖析学术数据,从而挖掘数据中的深层信息本报告将探讨其中的两个关键问题 如何设计通用的数据操作,利用学术数据中的语义信息,面向不同分析目标重新组织数据及其层次关系;及如何通过简洁统一的界面展示、比较层次数据中的信息,从而回答学术产出与影响评估中的各类问题。
报告4:Research on visualization research: Why do visual analytics papers get rejected?
报告者:伍翱宇 哈佛大学 博士后研究员
为何可视分析论文遭到拒稿?报告针对此问题展开了一项科学学 (Science of Science) 研究。从一个似乎“tasteless”的问题“为何被拒稿”出发,报告汇总并总结了论文被拒稿的常见原因,并进一步讨论“如何避免被拒稿”。更重要的是,报告深入探讨了可视分析领域的一些核心问题:如何区分可视分析的工程及科研问题?针对特定应用场景开发的系统如何具有普遍意义?如何评估其科研的严谨性和有效性?
论文报告5:AI and Visualization
论文1:Interactive Optimization of Relation Extraction via Knowledge Graph Representation Learning
关系抽取是构建大规模知识图谱的重要任务,旨在从纯文本中识别实体之间的事实关系并生成三元组。但是,不可避免地会产生大量的噪声,需要特别注意,否则会严重降低知识推理的性能。本文提出了一个可视化分析系统,该系统可以促进实体之间关系的自动提取和交互式优化,使用户能够以低置信度对这些提取结果进行细化。首先,设计了一种基于三元组的嵌入方法,通过捕获实体和关系之间的语义相似性来提供三元组的概述。然后,利用嵌入空间中的上下文信息来评估三元组的正确性,并推断出更可能的关系进行校正。最后,开发了集成上述方法和多个协调视图的可视化分析系统,使用户能够以可解释的方式对更高质量的数据进行校正,以帮助实现关系提取模型的迭代优化。基于真实数据集和专家访谈的案例研究进一步证明了该系统在有效分析和探索知识图关系提取方面的有效性。
论文2:C^5: Enhancing Conversation Comprehension and Contextual Continuity for ChatGPT
大型语言模型(llm),如ChatGPT,在各个领域,特别是在自然语言理解和生成任务中表现出了出色的性能。在复杂的应用场景中,用户倾向于与ChatGPT进行多轮对话,以保持上下文信息并获得全面的响应。然而,在多回合会话场景中,人类遗忘和模型上下文遗忘仍然是突出的问题,这对ChatGPT的用户会话理解和上下文连续性提出了挑战。为了应对这些挑战,报告提出了一种名为C5的交互式会话可视化系统,该系统包括全局视图、主题视图和与上下文相关的问答视图。Global View使用GitLog图隐喻来表示会话结构,呈现会话演变趋势,支持局部显著特征的挖掘。Topic View的目的是利用知识图的结构显示一个主题内的所有问答节点及其关系,从而显示对话的相关性和演变。与上下文相关的问答视图由三个链接的视图组成,允许用户深入探索单个对话,同时在提出问题时提供特定的上下文信息。通过案例研究和用户研究来评估C5的有用性和有效性。
论文3:BHPVAS: Visual Analysis System for Pruning Attention Heads in BERT Model
在深度学习领域,预训练模型已经取得了显著的成功。然而,随之而来的问题是,预训练模型的模型结构更复杂,网络参数更多。巨大的参数尺寸使得在时间和内存方面的计算成本变得极其昂贵。大多数现有的模型压缩方法都是基于压缩模型在特定任务上的性能来评估压缩算法的。此外,深度模型的训练过程是一个黑箱,缺乏可解释性,这使得研究人员无法直观地理解模型的优化过程。文章提出了一个用于预训练BERT模型剪枝的可视化分析系统BHPVAS,这有助于研究者将他们对模型结构和运行机制的理解融入到模型剪枝过程中,并生成剪枝方案。基于注意数据,文章提出了重要性评分、稳定性评分和相似性评分三个标准来评价自注意头像的重要性。此外,我们设计了多个协同视图来展示整个修剪过程,指导用户进行修剪。我们的系统支持使用文本依赖关系和注意权重分布来探索自注意头在模型推理过程中的作用。最后,文章通过两个案例研究演示了如何使用该系统进行情感分类样本分析和修剪方案探索,验证了视觉分析系统的有效性。
论文4:GBDT4CTRVis: Visual Analytics of Gradient Boosting Decision Tree for Advertisement Click-Through Rate Prediction
梯度增强决策树(GBDT)是广告点击率预测的主流模型。由于GBDT的工作机制复杂,广告分析人员往往无法分析大量决策树的决策过程和迭代演化过程,也无法理解不同特征对预测结果的影响,这给模型调优带来了很大的挑战。为了解决这些挑战,我们提出了一个可视化分析系统GBDT4CTRVis,它可以帮助广告分析师了解GBDT的工作机制,并通过直观和交互式的视图促进模型调整。具体而言,我们提出了实例级视图来分层探索广告数据的预测结果,特征级视图来从不同角度分析特征的重要性及其相关性,模型级视图来研究代表性决策树的结构和模型预测过程中信息增益的时间演化。我们还提供多视图交互和面板控制,以实现灵活的探索。最后,我们通过三个案例研究和专家评估来评估GBDT4CTRVis。来自专家的反馈表明GBDT4CTRVis在帮助理解模型机制和调优模型方面的有用性和有效性。
校企面对面
数字经济时代可视化产学研协同创新
来自蚂蚁集团王建喆介绍antV(Ant Financial Services Group),antV提供了丰富的图表库和交互式组件支持网络关系图、地理地图等特殊类型的可视化。通过antV,用户可以灵活地根据自己的需求和场景进行定制,实现高度个性化的数据可视化展示。来自中南大学赵颖教授从“定海”、“白择”两个产品迭代开发例子,讲述了孵化型可视化软件产品的迭代开发的思考。来自中科院计算机网络中心田东老师在报告中介绍了中科院计算机网络信息中心的地球大数据CASEarth工程,该工程主要关注地球大数据的处理和可视化分析。他还提到了上海天文馆的天文数字实验室,该实验室利用沉浸式可视分析技术对天文信息进行展示。来自华为云丁治宇博士则介绍了华为云BI,该产品是华为云推出的一种商业智能解决方案,通过可视化技术实现对企业数据的分析和展示,帮助企业做出更好的决策。另外,来自阿里云闻啸博士介绍了DataV,这是一个数据可视化平台,通过丰富的可视化组件和灵活的数据接入方式,帮助用户实现数据的可视化展示和探索。这些报告展示了不同领域中可视化技术的应用和技术特点,从地球大数据处理到商业智能,再到数据可视化平台,可视化技术在各个领域发挥着重要作用,并且具有广泛的应用前景。
圆桌互动交流
嘉宾:王嘉喆、赵颖、丁治宇、闻啸、田东
针对可视化未来前景的问题,闻啸提出:DataV解决的最后一公里是指在可视化前景中解决信息传递的最后一段距离。通过将庞大的数据和复杂的分析结果转化为直观、易懂的视觉展示,使得普通用户能够更好地理解和应用这些信息。赵颖老师提到:横向纵向结合是指在可视化前景中将不同维度的数据和信息进行有机结合。通过同时考虑横向和纵向的视角,可以获得更全面、多层次的信息呈现,帮助用户发现数据之间的关联性和趋势,并支持更深入的分析和决策。田东老师表示:多领域融合强调在可视化前景中将多个领域的知识和技术相结合。通过整合多个学科领域的专业知识和技术手段,可以提供更丰富、全面的可视化体验和分析能力。这种融合有助于发现交叉领域的洞见,促进跨学科的合作和创新。
针对学术界中可视化中关键的技术问题,赵颖老师提到:国内技术储备在可视化领域确实取得了很大的进展,但我们仍然需要更好地支持基本编程工具和编程语言的发展。在可视化中,对于工具和语言的需求推动着研究的进步。需要学术界和工业界的联合合作,共同推动技术的发展和创新。田东老师表示:在可视化技术中,软件存在着一定的差距。此外,硬件方面(如VR眼镜)的芯片问题也是一个挑战。与国外相比,国产芯片在可视化领域仍存在明显差距,这限制了我们在硬件层面的发展。为了解决这些问题,我们需要加大研发和技术投入,提升软件和硬件的质量与性能,不断弥补技术差距。同时,加强产学研合作,促进技术创新和应用落地。
在产学研深度融合经验分享中,田东老师提到:在可视化技术中,我们需要加强技术的转移和转化。这意味着将研究成果应用到实际生产和商业领域,促进技术的产业化和推广。同时,远程指导和协同工作也是一个重要的技术问题。通过远程协作和指导,可以解决地理位置和时间限制,提高效率和合作水平。此外,院地合作也是一个关键的技术问题,通过高校与地方院所的合作,可以加快技术创新和应用落地的速度。闻啸老师提到:对于企业来说,泛化是一个着急的问题。企业需要将可视化技术广泛应用于不同的场景和业务领域,提供更多样化的解决方案和产品。因此,技术在实践中的泛化能力是需要关注和提升的。赵颖老师提到:政策引导在可视化领域也很重要。政策的制定和引导可以促进技术的发展和应用。同时,模式创新也是一个关键的技术问题。我们需要找到学校和企业的平衡点,兼顾双方的需求,进行微创新,以满足学校和企业的具体需求。在合作关系中建立起互信互利的机制也是至关重要的。丁治宇老师提到:企业应该从自身业务需求出发,将问题提出给高校,由高校来解决。同时,对企业的要求也较高,需要明确问题的定义和需求,以便高校能够更好地进行解决和研究。王嘉喆老师提到:在合作过程中,我们应该以人为中心,让高校教师和企业领导相互了解彼此的利益诉求,减少信息差,增加沟通。建议高校多让学生去企业实习,了解实际业务,而不是只关注学术研究,不闭门造车,这样可以更好地满足企业的需求。
对于可视化领域人才需要具备的素质问题中。王嘉喆老师提到:可视化领域的人才应该具备以下素质:基础工程能力的夯实:包括数学、计算机科学等基础知识的扎实掌握,以及数据结构、算法和编程能力等;协同合作能力:在可视化项目中,需要与团队成员、设计师、开发者等不同角色进行有效的协作和沟通,因此具备良好的团队协作能力是必要的;前端工程能力:在可视化领域,前端开发技术是非常重要的,包括HTML、CSS、JavaScript等技术的熟练应用,以及对用户界面和交互设计的理解和实现能力;数据分析和可视化技能:理解和分析数据,并将数据通过可视化手段转化成易于理解和传达的形式是可视化领域的核心任务,因此需要具备数据分析和可视化技术的相关知识和能力。丁治宇老师补充了一些内容。除了以上提到的素质外,可视化领域的人才还应该具备以下素质:基础知识与动手能力的结合:不仅要掌握相关理论知识,还要能够将知识应用到实际的项目中,具备独立解决问题和动手实践的能力;智能化结合:随着人工智能和机器学习等技术的不断发展,可视化领域也开始与智能化技术结合,如数据挖掘、自动化可视化等。因此,具备对智能化技术的理解和应用能力是必要的。
红色文化体验(重庆1949)
《重庆•1949》讲述了重庆解放前夕众多被关押在渣滓洞、白公馆的中国共产党人,经受住种种酷刑折磨,不折不挠、宁死不屈的故事,再现了解放军和重庆人民一起保卫城市的宏大场景。