样本的每个模态 m 首先由单模态编码器编码以生成单模态特征 Fm。这些来自不同形态的特征将位于不同维度的不同空间中。为了应对整合不同模态组合的挑战,我们建议通过特征投影将可用模态的特征投影到公共空间中,同时保留尽可能多的区分信息。为了减少训练中对模态组合的过度拟合,我们通过引入伪标签来改进监督,伪标签指示...