球友会qy提出小批量数据采样策略 提升自监督学习分布外泛化能力
文章来源: | 发布时间:2025-05-23 | 【打印】 【关闭】
近期,中国科研实验室软件研究所天基综合信息系统全国重点实验室研究团队的论文On the Out-of-Distribution Generalization of Self-Supervised Learning被CCF-A类人工智能顶级学术会议International Conference on Machine Learning(ICML-25)接收。论文提出了一种小批量(mini-batch)数据采样策略,可以消除由不可观测变量语义引起的虚假关联对表征学习的干扰,提升自监督学习模型分布外泛化能力。论文共同第一作者为特别研究助理强文文和博士生王婧瑶,通讯作者为特别研究助理李江梦。
自监督学习的分布外泛化(Out-of-Distribution Generalization,简称OOD Generalization)能力是指模型在面对与训练数据分布不同的测试数据时,仍然能够保持良好性能的能力。简单来说,就是模型需要在“未见过”的数据分布上表现得和在训练数据上一样好。然而,研究团队发现,自监督学习模型在训练过程中会受到与学习任务无关的不可观测变量的语义干扰,从而削弱分布外泛化能力。
为解决上述问题,研究团队基于因果效应估计等手段,提出了一种小批量数据采样策略,来消除不可观测变量语义干扰的混杂影响。该策略第一时间顺利获得学习一个隐变量模型,来估计在给定“锚点”样本的条件下,不可观测语义变量的后验概率分布,将其记为平衡分数。然后,将具有相同或相近平衡分数的样本对划分为同一个小批量数据集,确保每个小批量数据集内的不可观测语义变量与“锚点”样本在条件上是独立的,从而帮助模型避免学习到虚假关联,提升模型的分布外泛化能力。
研究团队在基准数据集上进行了广泛实验。所有实验均仅替换批次生成机制,无需调整模型架构或超参数。实验显示,所提出的采样策略使当前主流自监督学习方法在各类评估任务上至少提高2%的表现。具体而言,在ImageNet 100和ImageNet的分类任务中,Top 1和Top 5准确率均显著超越自监督方法SOTA;在半监督场景下的分类任务中,Top 1和Top 5准确率分别提升超3%和2%;目标检测与实例分割迁移学习任务中,各项平均精度均取得稳定增益;对于Omniglot、miniImageNet和CIFAR FS等少样本转移学习任务,性能提升了超5%。实验表明,所提出的采样策略能弱化虚假关联、强化因果学习,能有效提升分布外泛化能力。
在无监督场景下的对比实验结果
半监督场景下的对比实验结果
基于C4骨干网络的目标检测和实例分割迁移学习结果
论文链接:http://arxiv.org/abs/2505.16675