2025年春季学期视觉计算实验室第1次论文研读预告

时间:2025年3月1日(周六)上午09: 00

地点:望江校区基础教学楼B座318实验室

分享者:张键军

分享内容:

 [1] Cui Z, Harada T. RAW-Adapter: Adapting Pre-trained Visual Model to Camera RAW Images[C]//European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2024: 37-56.

 [2] Meng R, Mirchev M, Böhme M, et al. Large language model guided protocol fuzzing[C]//Proceedings of the 31st Annual Network and Distributed System Security Symposium (NDSS). 2024, 2024.

论文简介:

 [1] sRGB 图像由于易于获取和高效存储,目前已成为计算机视觉研究中预训练视觉模型的主要选择。同时,RAW 图像的优势在于其在多变的现实世界中具有挑战性的光照条件下具有丰富的物理信息。对于直接基于相机 RAW 数据的计算机视觉任务,现有研究大多采用将图像信号处理器(ISP)与后端网络集成的方法,但往往忽略了 ISP 阶段与后续网络之间的交互能力。从 NLP 和 CV 领域正在进行的适配器研究中汲取灵感,论文作者推出了 RAW-Adapter,一种旨在将 sRGB 预训练模型适配到相机 RAW 数据的新方法。RAW-Adapter 由输入级适配器和模型级适配器组成,输入级适配器采用可学习的 ISP 阶段来调整 RAW 输入,而模型级适配器则在 ISP 阶段和后续高级网络之间建立连接。此外,RAW-Adapter 还是一个通用框架,可用于各种计算机视觉框架。在不同光照条件下进行的大量实验表明,该算法具有最先进(SOTA)的性能,在一系列真实世界和合成数据集上证明了它的有效性和效率。

RAW-Adapter 的结构图

 [2] 在没有机器可读协议规范的情况下,如何发现协议实现中的安全漏洞?面对互联网,协议实现是特别安全的软件系统,其输入必须遵守特定的结构和顺序,而这些结构和顺序往往是以自然语言(RFC)的形式非正式地规定在数百页中的。如果没有该协议的机器可读版本,就很难自动生成符合所需结构和顺序的有效测试输入。将一组记录的信息序列作为种子输入,使用突变模糊法可以部分缓解这一难题。然而,可用的种子集往往相当有限,很难涵盖协议状态和输入结构的巨大多样性。 在本文中,作者探索了与预先训练好的大型语言模型(LLM)进行系统交互的机会,这些模型已经摄取了数百万页人类可读的协议规范,从而得出机器可读的协议信息,这些信息可在协议模糊过程中使用。论文作者利用 LLM 关于众所周知的协议消息类型的知识,还通过生成信息序列和预测响应代码,检验了 LLM 检测有状态协议实现的 “状态 ”的能力。基于这些观察结果,论文作者开发了一个由 LLM 引导的协议实现模糊引擎。该协议模糊器 CHATAFL 会为协议中的每种消息类型构建语法,然后通过与 LLM 的交互来变异消息或预测消息序列中的下一条消息。在 PROFUZZBENCH 的各种实际协议上进行的实验表明,状态和代码覆盖率都有显著提高。该论文的 LLM 引导有状态模糊器与最先进的模糊器 AFLNET 和 NSFUZZ 进行了比较。CHATAFL 的状态转换覆盖率分别提高了 47.60% 和 42.69%,状态覆盖率分别提高了 29.55% 和 25.75%,代码覆盖率分别提高了 5.81% 和 6.74%。除了增强覆盖范围外,CHATAFL 还在广泛使用和广泛测试的协议实现中发现了九个不同的、以前未知的漏洞,而 AFLNET 和 NSFUZZ 分别只发现了其中的三个和四个。

CHATAFL 的算法伪代码

分享者:徐骏驰

分享内容:

 [1] Li G, Mi H, Liu C H, et al. HiRegEx: Interactive Visual Query and Exploration of Multivariate Hierarchical Data[J]. IEEE Transactions on Visualization and Computer Graphics, 2024.

 [2] Troidl J, Warchol S, Choi J, et al. Vimo-Visual analysis of neuronal connectivity motifs[J]. IEEE transactions on visualization and computer graphics, 2023, 30(1): 748-758.

论文简介:

 [1] 当使用探索性视觉分析检查多元分层数据时,用户通常需要查询数据以缩小分析范围。但是,制定有效的查询表达式仍然是多元分层数据的挑战,尤其是当数据集变得非常大时。为了解决此问题,我们开发了声明性语法Hiregex(层次数据正则表达式),以查询和探索多元分层数据。 Hiregex植根于树木可视化的扩展多层任务拓扑框架(E-MLTT),介绍了三个查询目标(节点,路径和子树),以及查询这些目标(功能和位置)的两个方面,并使用基于操作员开发的操作员关于查询构造的经典正则表达式。基于Hiregex语法,我们开发了一个探索性框架,用于查询和探索多元分层数据,并将其集成到Treequeryer Prototype系统中。探索性框架包括三个主要组成部分:自上而下的模式规范,自下而上的数据驱动查询和上下文创建数据概述。我们通过E-MLTT框架的任务来验证Hirgex的表现力,并通过涉及专家用户参与参考树数据集的案例研究来展示树Queryer系统的实用性和有效性。

查询多元分层数据的探索性框架

 [2] 高分辨率连接组学的最新进展使研究人员首次获得了精确的神经元电路和大脑网络的佩斯卡尔重建。神经科学家正在分析这些网络,以更好地了解大脑中的信息处理。特别是,科学家有兴趣识别特定的小型网络图案,即,据信被认为是神经元的构件的大脑网络的重复子图。尽管此类基序通常很小(例如2-6个神经元),但是庞大的数据大小和复杂的数据复杂性对搜索和分析过程构成了重大挑战。为了分析这些主题,至关重要的是要回顾大脑网络中基序的实例,然后将图形结构映射到所涉及的神经元和突触的详细3D重建。我们提出了VIMO,这是一种交互式视觉方法,用于分析大脑网络中的神经元基序和基序链。专家可以在视觉接口中直观地绘制网络图案,并指定所涉及的神经元和突触的结构属性以查询大型连接元数据集。图案实例(MIS)可以在高分辨率3D渲染中探索。为了简化对MIS的分析,我们设计了一个持续的焦点和上下文隐喻,灵感来自视觉抽象。这使用户可以从解剖结构的高度详细渲染过渡到强调基础基序结构和突触连接的视图。此外,VIMO支持识别基链链,其中反复使用基序(例如2-4次)以形成较大的网络结构。我们在一项用户研究中评估了VIMO,并与七个果蝇连接组中的七个领域专家进行了深入的案例研究,其中包括超过21,000个神经元和2000万个突触。我们发现VIMO通过快速分析迭代和连通性突出显示可以实现假设的产生和确认。

VIMO的可视基序分析流程