Valse 2024 - Day2

大模型赋能智慧医疗

讲者:王本有 (香港中文大学(深圳))、谢伟迪 (上海交通大学)、王国泰 (电子科技大学)、史淼晶 (同济大学)、张晓凡 (上海交通大学)、雷柏英 (深圳大学)

在本次Workshop中,几位讲者介绍了大模型在医疗领域的应用和潜力,并以四个问题为核心展开了讨论:

1. 大模型在智慧医疗领域的关键机遇和挑战;2. 高校如何在面临数据和算力有限等瓶颈的情况下开展有影响力的研究;3. 未来3-5年内大模型在智慧医疗领域有望落地的领域有哪些;4. 智能医疗的终极发展方向是专才、通才还是混合专家。

图1. Panel Discussion

这些问题引发了与会者之间的深入讨论和交流。讲者们分享了他们在医疗领域应用大模型时所遇到的机遇和挑战,并提出了解决这些挑战的策略和方法。通过分享实践经验和合作模式,探讨了如何最大程度地利用有限资源进行创新研究。讲者们强调了大模型在医学图像分析、辅助诊断和个性化治疗等方面的潜在应用,并讨论了相应的技术和实施挑战。最后,讲者们与与会者讨论了专才、通才和混合专家在智能医疗中的作用,以及如何建立跨学科的合作模式以推动智能医疗领域的发展。这次Workshop为与会者提供了一个深入探讨大模型在智慧医疗领域应用的平台,促进了跨学科合作和共享经验,为智能医疗的未来发展指明了方向。

1. 医疗健康大语言模型—华佗GPT的实践(王本友)

在医疗领域,大规模语言模型(LLM)具有广阔的应用潜力。尽管像ChatGPT这样的语言模型能够生成内容详实、表述流畅、逻辑清晰的回复,但在回应患者描述症状时,缺乏专业性和对患者输入的精确解读。其回复常常包含多种可能性,并以较高层次的建议形式呈现,但往往缺少深入的上下文理解能力,使得其帮助患者的具体情况有限。

图2. 华佗GPT

然而,在现实世界中,医生与患者的互动数据能够更准确地反映医疗情景的复杂性,并提供准确无误的诊断建议,具有极高的专业性。由于时间的限制,医生的回应常常简洁至不能充分传达信息,甚至有时会显得不连贯。若仅依靠这些数据来训练模型,得到的模型难以流畅地应对多样的指令或对话,其生成的回应也会显得短小、表述不佳,有时信息含糊,这对患者并不友好。

为了解决这一问题,王教授团队进行了深入研究,利用指令微调和强化学习的方法,在ChatGPT和医生的回复中找到了结合点,开发出了华佗GPT。他们致力于通过融合ChatGPT生成的“蒸馏数据”和真实世界医生回复的数据,使语言模型具备像医生一样的诊断能力和提供有用信息的能力,同时保持对用户流畅的交互和内容的丰富性,使对话更加丝滑。

2. 视频和医学的多模态表示学习(谢伟迪)

近年来,基于大数据预训练的多模态基础模型(Foundation Model)在自然语言理解和视觉感知方面展现出了前所未有的进展,在各个领域引起了广泛的关注。在医疗领域中,由于医学任务对领域专业知识的高度依赖以及任务本身的细粒度特征,通用的基础模型在医疗领域的应用受到了一定的限制。因此,如何将医疗知识注入模型,以提高基础模型在具体诊疗任务上的准确度和可靠性,成为当前医学人工智能研究领域的热点问题。在这样的背景下,谢教授介绍了团队在医疗大模型领域的探索工作。主要内容包括数据的收集、多模态模型的构建和应用,以及多模态模型的评估。

图3. 视频和医学的多模态表示学习

谢教授团队首先介绍了大规模医疗数据的收集工作,这些数据包括文本、图像、影像等多种形式的医学信息,涵盖了不同疾病和病例的丰富样本。在数据集的基础上,团队着手构建多模态模型。这种模型能够同时处理文本和图像等多种输入,并在不同模态之间建立有效的关联。将医疗领域的专业知识融入到模型中,提高了模型在医疗任务上的表现。此外,谢教授团队开展了一系列的实验和评估,对模型的性能进行了全面的验证,展示了多模态模型在医学图像分析、病理诊断和临床决策等任务上的优势和潜力。

3. 大模型时代下的医学智能计算(史淼晶)

史教授的报告详细介绍了大视觉模型、大语言模型和多模态大模型在医疗领域的应用,并分享了团队在这三种大模型上的一些研究工作。首先,史教授介绍了大视觉模型的应用。他提到了基于面部视频的远程生理测量自监督学习方法,以及结合DINO与Adapter在手术器械分割方面的应用。这些方法利用大视觉模型的强大能力,通过视频数据自我学习面部生理测量,实现了远程生理监测的突破。同时,团队还探索了大模型在文本提示条件下在手术器械分割方面的潜力,提出了基于视觉语言模型的文本可提示手术器械分割方法。其次,史教授介绍了团队在多模态大模型方面的工作,研究了大模型驱动的放射学报告生成,并应用强化学习技术进行临床质量的提升。这些工作结合了视觉和语言信息,通过多模态数据的融合和模型驱动的方法,实现了自动生成放射学报告。最后,史教授指出大模型在医疗领域的广泛应用将推动医疗智能计算的发展,并对未来的研究方向和应用前景进行了展望。

图4. 大模型时代下的医学智能计算

4. 医疗多模态大模型(张晓凡)

张教授的报告着重从大模型的训练数据出发,比较了通用领域和医疗领域的数据量差异,并详细介绍了医疗数据集的构建方法。她还分别介绍了通用领域和医疗领域在自监督学习、指令微调、插件学习和对齐学习方面获取数据的途径。这些方法使得在医疗领域获得高质量数据成为可能。随后,张教授详细阐述了医疗模型训练中的问题及相应解决方案,并介绍了训练大规模模型所需的算力需求。在医疗领域,由于数据的复杂性和规模,模型训练面临着诸多挑战,如数据标注的困难和模型泛化能力的限制。为应对这些问题,张教授提出了一些解决方案,包括引入领域专家知识进行指导、使用迁移学习和增量学习等方法。最后,张教授指出了将大语言模型(LLM)作为代理来执行各种下游医疗任务的潜力。LLM具有强大的语言理解能力和泛化能力,可以应用于医疗领域的多个任务,如文本分类、实体识别、问答系统等。这一观点为利用大模型解决医疗问题提供了新的思路。

图5. 医疗多模态大模型