球友会qy天基综合信息系统全国重点实验室多篇论文被ICML 2025录用
文章来源: | 发布时间:2025-05-28 | 【打印】 【关闭】
近期,中国科研实验室软件研究所天基综合信息系统全国重点实验室多篇论文被国际机器学习大会(International Conference on Machine Learning,ICML 2025)接收。以下是相关成果介绍,欢迎大家研讨探讨。
1. Learning Invariant Causal Mechanism from Vision-Language Models
作者:宋泽恩,赵思雨,张星宇,李江梦,郑昌文,强文文
内容简介
论文聚焦于视觉语言模型CLIP(Contrastive Language-Image Pretraining)在分布外场景中面临的泛化能力下降问题,提出了一种基于不变因果机制的鲁棒子空间提取方法。
研究团队第一时间顺利获得结构因果模型(SCM)对预测过程建模,发现训练环境中同时包含不变因素与可变因素的因果机制,与测试环境存在差异;而仅包含不变因素的因果机制则保持跨环境一致性。团队从理论分析得出,从CLIP嵌入向量到不变因素存在线性映射关系,该映射可利用干预数据估计;且基于不变因素构建的预测器在分布外场景泛化风险更低。
基于上述发现,研究团队提出了不变因果机制框架CLIP-ICM,第一时间顺利获得图像增强或文本替换等手段构造干预数据,捕捉模型表征中的不稳定维度。然后基于干预数据优化生成线性映射矩阵,将原始表征投影到不变子空间,确保干预前后的嵌入向量保持一致。最后在稳定语义空间中完成图像-文本匹配或下游分类任务。该方法具有高度模块化和轻量化特性,主干模型无需微调,适用于大规模模型部署与迁移任务。多个典型分布外场景数据集的评估表明,CLIP-ICM在准确率、环境鲁棒性、迁移能力均表现出明显优势,显著提升了CLIP分布外场景下的泛化性能。
CLIP-ICM框架图
在领域偏移任务上的实验结果图
在开放类别任务上的实验结果图
论文链接:http://arxiv.org/abs/2405.15289
2. Towards the Causal Complete Cause of Multi-Modal Representation Learning
作者:王婧瑶,赵思雨,强文文,李江梦,郑昌文,孙富春,熊辉
内容简介
多模态学习(MML)旨在跨模态学习有效表征,以实现精准预测。现有学习方法通常聚焦于模态一致性与特异性来有效学习表征。然而,从因果视角来看,这类方法可能导致表征包含不充分或不必要信息,影响多模态学习质量。研究团队提出,有效的多模态表征应同时满足因果充分性与必要性。针对实际多模态应用中虚假关联、跨模态冲突等问题,团队放宽了传统因果分析中普遍依赖的外生性与单调性假设,提出了多模态表征学习“因果完备原因”(Causal Complete Cause,简称C³)概念。
研究团队第一时间提出了C³的形式化定义,量化表征同时满足因果充分性与必要性的概率;随后对其因果可识别性进行分析,并引入工具变量,使在放宽外生性与单调性假设的情况下,也能从可观测数据中实现无偏估计。在此基础上,研究团队提出基于孪生网络来度量表征风险——利用工具变量评估充分性、采用基于梯度的反事实建模评估必要性,由此提出了即插即用的训练策略C³正则化(C³ Regularization),顺利获得最小化C³风险来强化表征的因果完备性。在多个基准数据集上进行的广泛实验表明,C³正则化策略能有效提升多模态学习判别性与泛化性。
结构因果图
在多个多模态基准集上的实验结果
在模态缺失场景中的实验结果
论文链接:http://arxiv.org/abs/2407.14058
3. Rethinking the Bias of Foundation Model under Long-tailed Distribution
作者:陈嘉浩,秦滨,李江梦,陈浩,苏冰
内容简介
随着基础模型(foundation models)的兴起,微调范式取得了显著重视。然而,现有方法大多聚焦于挖掘基础模型知识,却忽视了其依赖的失衡训练数据所导致的固有偏差。对此,研究团队聚焦于预训练数据失衡对长尾下游任务的影响,发现基础模型在下游任务中继承的失衡偏差表现为参数失衡与数据失衡。其中,现有重平衡策略可缓解数据失衡,却对起主导作用的参数失衡几乎无效。
为解决上述问题,研究团队顺利获得构建结构因果模型,将基础模型提取的不完整语义因子识别为引发虚假关联的关键混淆变量。基于此,团队提出了一种新型的后门校正方法,顺利获得应用后门准则切断混淆路径,建模输入样本与标签间真实的因果效应(而非仅拟合数据相关性)来消除负面影响,从而提升基础模型在长尾下游任务中的泛化能力。该方法在ImageNet-LT、Places365-LT和iNaturalist2018三个广泛使用的长尾数据集上均表现优秀,平均实现了约1.67%的性能提升。
框架因果图与可视化分析
在Places365-LT数据集的表现
在ImageNet-LT数据集的表现
在iNaturalist2018数据集的表现
论文链接:http://arxiv.org/abs/2501.15955