7月24日是第十届中国可视化与可视分析大会(ChinaVis 2023)的最后一天,会议讨论AI大模型与可视化的结合与发展,议程包括特邀报告、圆桌论坛和闭幕式。
特邀报告:Harnessing the Power of AI in Creative Fields: A Dive into Tools, Biases, Limitations, and Opportunities
报告人:徐瑞鸽(雪城大学)
ChatGPT、Stable Diffusion 和 Midjourney 等工具的流行带来了人工智能生成内容的兴起。对于艺术家、设计师、研究人员和开发人员来说,充分了解这些工具的训练与微调开发过程并认识这之中存在的偏见是至关重要的。我们必须充分理解其运行基本机制,从而有效评估这些工具是否适合特定创意任务或数据可视化项目,从而有针对性地使用这些工具以产生可靠结果并真实反映我们的艺术意图。我们的关注点不应局限于预训练模型所产生的有限结果和美感,更重要的是寻求更多尊重版权法律并体现文化价值的可信数据源。与其盲目随波逐流,不如拓宽视野,以批判性思维进行更有意义的工作,在创意领域发挥人工智能的力量。
圆桌论坛:大模型时代的可视化走向何方?
主持人:朱敏(四川大学)
嘉宾:陈思明(复旦大学)、韩东明(浙江核新同花顺公司)、王希廷(微软亚洲研究院)、曾伟(香港科技大学)、朱闽峰(浙江大学)
以大语言模型为代表的大模型时代呼啸而来,改革了传统的人机对话界面,构成了通用人工智能的基础。作为视觉感知驱动的界面形式,可视化与大模型天然具有融合共生的关联关系。如何利用大模型强大的知识生成能力实现可视化的自动生成?如何利用可视化的透视能力实现大模型的可解释与可控?这些问题,值得我们探讨和探索。各位论坛嘉宾分享精彩见解,也与听众积极问答互动。
复旦大学青年研究员陈思明博士思考大模型产生后AI+VIS人机交互范式的改变,提出许多高屋建瓴的问题:在大模型时代的人机交互中,人的角色是什么?同时大模型的定位是怎样的?二者如何分工?人/机决策的目的是什么?如何进行多步决策?更具体地,应用大模型时如何更好地构造提示词?如何构造多步思维链?如何对生成结果进行约束与调优?
香港科技大学(广州)助理教授曾伟博士强调大模型可以增强可视化设计与交互方法,以提高分析效率、促进信息交流。并介绍了三项团队近期工作:利用文本-图像生成模型做信息图表的增强、基于LLM的智能数据交互与可视化图表生成和基于隐空间的视觉检索与交互。
微软亚洲研究院研究员王希廷博士认为当下与未来的必然趋势是大模型为可视化带来变革,并演示了如何用GPT来生成可视化:用户提供数据、给出可视化生成指令、进一步给出提示要求修改。该演示充分展现了大模型的强大理解能力,可以在缺少明确指令的情况下自主判断选择图表类型,并不断满足用户需求。
同花顺公司研究员韩东明博士介绍了LLM时代可视化的机遇与挑战,总结为可视化需求多、挑战多、问题多,包括但不限于业务种类多(ToB、ToC、ToG等)、终端类别多(PC端、网页端、手机端等)、业务场景多(问答、咨询、行情等)、全球市场多(本土、欧美、东南亚等)。
浙江大学特聘研究员朱闽峰博士展望了大模型服务的未来,在数据层需要高质量文本数据、成对语言-视觉数据和指令数据,在模型层进行无监督预训练、监督微调和人类反馈强化学习,在对齐时需要是有用的、可信的和无害的,在应用层推进提示工程、MaaS和AI Agent。
最终进行大会闭幕式,组会会成员为优秀的挑战赛、海报、论文获奖者颁奖,并进行大会总结回顾等精彩致辞。明年,第十一届中国可视化与可视分析大会,我们香港见!