近日,智能接口与人机交互研究中心团队的研究成果“MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training”被计算机视觉顶级期刊IEEE Transactions on Image Processing (CCF A类期刊)全文接收。该成果第一作者为哈尔滨工业大学计算学部本科生李佳阳(指导教师江俊君教授)

图1 所示设计方法的总体流程
近年来,随着成像技术的飞速发展,如何有效整合来自多个传感器的信息,以提升信息感知的丰富度,已成为研究的前沿热点。多模态图像融合技术在自动驾驶、智能安防等领域的广泛应用,标志着这一技术的巨大潜力与价值。本研究专注于红外与可见光图像的融合,旨在更好地保留两个模态中的语义信息。当前的研究常常依赖下游任务的损失来约束融合网络的训练,以提升融合效果。然而,由于下游任务标签融合数据稀缺,过拟合现象时有发生,严重影响了模型的泛化能力。针对这一挑战,本文创新性地提出了一种基于预训练编码器的融合方法。通过自监督训练获得的编码器,能够有效保留底层与高层视觉信息,使我们能够在拥有大量语义信息的图像编码空间中进行高效融合。此外,采用两阶段训练策略,显著加快了模型的收敛速度。实验结果表明,该方法在融合效果上优于传统的下游任务驱动方法,为多模态图像融合技术的未来发展开辟了新的方向。

图2 编码器逐步学会语义信息的可视化结果
该论文一作李佳阳同学目前就读于哈尔滨工业大学计算学部,曾荣获黑龙江省三好学生等荣誉,斩获多项省部级以上竞赛荣誉。IEEE Transactions on Image Processing是中国计算机学会在计算机图形学与多媒体领域推荐的A类期刊,重点关注于各种应用中图像、视频和多维信号的形成、捕获、处理、通信、分析和显示的新理论、算法和架构。