Valse 2024 - Day3

多模态大模型 多模态大模型是一种基于深度学习的模型,能够同时处理多种模态的信息,包括文本、图像、音频、视频等。这些模态可以来自不同的数据源,也可以是不同的表示形式。通过利用多种模态的信息,多模态大模型能够提高模型的性能和泛化能力。 在本次会议的Workshop环节中,有六位讲者分别是刘禹良(华中科技大学)、王士进(科大讯飞)、王文海(香港中文大学)、丁二锐(百度)、师忠超(联想研究院)和张博(浙江大学)。他们分享了各自团队在多模态大模型方面的研究工作,为与会者提供了宝贵的学习经验。 »

Valse 2024 - Day2

大模型赋能智慧医疗 讲者:王本有 (香港中文大学(深圳))、谢伟迪 (上海交通大学)、王国泰 (电子科技大学)、史淼晶 (同济大学)、张晓凡 (上海交通大学)、雷柏英 (深圳大学) 在本次Workshop中,几位讲者介绍了大模型在医疗领域的应用和潜力,并以四个问题为核心展开了讨论: 1. 大模型在智慧医疗领域的关键机遇和挑战;2. 高校如何在面临数据和算力有限等瓶颈的情况下开展有影响力的研究;3. 未来3-5年内大模型在智慧医疗领域有望落地的领域有哪些;4. 智能医疗的终极发展方向是专才、 »

Valse 2024 - Day1

2024年5月5日至5月7日,第十四届视觉与学习青年学者研讨会(VALSE 2024)在山城重庆渝北区悦来国际会议中心举办。本届大会由中国人工智能学会和中国图象图形学学会联合主办,重庆邮电大学承办,重庆大学协办。VALSE 2024大会将延续往年模式,继续聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向,在3天的时间里为参会者呈现2个大会主旨报告、5个大会特邀报告、12个年度进展评述(APR)报告、4个讲习班 (Tutorial)、20个研讨会 (Workshop)共约100个专题报告、约200篇年度顶会顶刊论文墙报 (Poster)展示等内容, »

ICASSP 2024 - Day6

主会报告 5:Restructuring and Recognizing Human Actions in Video 讲者:Jitendra Malik (The University of California, Berkeley) 人工智能的一个核心问题是从图像和视频中开发技术来分析和理解人类行为。Jitendra Malik介绍了研究团队在这一重大挑战方面取得的一些最新成果。其团队已经开发出了从单张图像中使用Transformer神经网络重建人体的3D网格的高精度技术。在给定视频输入的情况下,通过3D跟踪将这些重建与时间联系起来,从而产生了“四维人类”(在空间中的3D »

ICASSP 2024 - Day5

短课2:Practical Guide to Computational Imaging: From Basics to Brilliance 讲者:Lu Fang (Tsinghua University), Jiachen Wu (Tsinghua University), Xun Cao (Nanjing University), Jinwei Gu (Chinese »

ICASSP 2024 - Day4

主会报告 3:Classical versus Modern Signal Processing Algorithms: A Contrast Study 讲者:Bhaskar D. Rao(University of California San Diego) 本次报告中,信号处理领域的专家Bhaskar D. Rao深入探讨了信号处理算法多年来的演变以及现代方法与经典方法之间的联系。这次报告引发了对现代算法性能和复杂性之间关系的深入思考,并强调了理解现代算法与经典算法之间联系的重要性。 »