鲁特格斯大学等五所高校联手破解AI记忆难题

这项由鲁特格斯大学、塔夫茨大学、纽约大学、河内科技大学与莫纳什大学联合开展的研究，以arXiv预印本形式发布（编号：arXiv:2211.16780），最新版本更新于2026年4月。感兴趣的读者可通过该编号检索完整论文。

一、从"鱼的记忆"说起：AI为何总是忘东忘西

有没有想过，如果你每学一门新课，就会彻底忘掉上一门课的所有内容，那学习将会变得多么荒谬？这正是当前人工智能系统面临的一个真实困境，研究者把它称为"灾难性遗忘"。

现代AI系统，尤其是用于图像识别、语音理解等任务的神经网络，在学习新内容时往往会把之前学到的东西覆盖掉。就像用新内容覆盖磁带一样，旧的记录消失了，取而代之的是新录入的信息。这对于需要持续适应变化的场景来说，是一个严重的缺陷。

真实世界的应用场景偏偏最需要这种持续学习的能力。自动驾驶汽车需要不断从新的路况中学习，机器人需要从传感器数据中持续进化，视频推荐系统需要随时跟上用户口味的变化。这些场景有一个共同特点：数据像河水一样不断流入，不可能停下来等AI把所有数据攒齐了再统一学习。

研究团队将这个最具挑战性的场景命名为"在线类增量学习"（Online Class Incremental Learning，简称OCIL）。在这个场景下，AI每次只能看到一小批新数据，只能做一次更新，而且在推断新内容时还不知道自己当前面对的是第几个"任务"。这就好比一名学生每天只能复习当天的新内容五分钟，还不能翻看课本目录，但考试时却要答出所有学过的内容——压力可想而知。

二、现有方案的局限：用一个图钉代表整幅地图

面对这个难题，研究界此前提出了不少应对策略。最常见的一类做法是在AI的"记忆空间"（即模型内部用来表示数据特征的空间，可以理解为AI大脑里的坐标系）中，为每个类别设置一个"代表点"，也叫"原型"或"质心"。每当AI学到一个新样本，就把这个样本对应的特征向这个代表点拉近，同时推离其他类别的代表点，从而让不同类别在记忆空间里保持清晰的分界线。

这个策略的道理并不难懂，就像在地图上用一颗图钉标记一座城市的位置。但问题在于，一座城市不只是一个点——它有老城区、新城区、工业区、商业区，各自的分布截然不同。如果只用一颗图钉代表整座城市，很多细节就会丢失。

现实世界的数据同样如此。以手写数字识别为例，数字"1"在不同人手中写出来的形状可能差异很大：有的竖直，有的倾斜，有的顶部有小撇，有的则更像一条短横线。这种现象叫做"多模态性"，意思是同一类数据在特征空间里会形成多个不同的聚集区域，而不是整整齐齐地聚在一个点附近。

另一些研究者意识到了这个问题，转而使用"高斯混合模型"（Gaussian Mixture Model，简称GMM）来为每个类别设置多个代表点。高斯混合模型可以理解为用多个椭圆形的"泡泡"来覆盖一片区域，每个泡泡对应数据分布的一个聚集区。然而，这些方法存在一个致命缺陷：代表点一旦学好，就被固定下来不再更新。

偏偏AI的内部记忆空间本身就在不断变化。当AI学习新数据时，它的特征提取能力也在调整，导致同样的输入图片在记忆空间里的落点会发生漂移——就像地图的坐标系悄悄挪动了，但城市的图钉还插在原来的位置。于是，那些固定不动的代表点越来越无法准确反映真实的数据分布，模型的表现也随之下滑。

三、研究团队的新思路：让代表点跟着数据一起"游泳"

面对这两个痛点——单一代表点无法捕捉多模态数据、多代表点又无法随时更新——研究团队提出了一个新框架，命名为MMOT，全称是"基于最优传输理论的在线混合模型学习"（Online Mixture Model based on Optimal Transport）。整个研究方案还有一个更响亮的名字：OTC，即"用最优传输方法在在线增量学习中培育潜在空间"。

这个框架的核心思想，可以用一个面团发酵的比喻来理解。高斯混合模型就像是一块面团，里面分布着多个发酵中心，每个中心让附近的面团膨胀成一个鼓包。现在，随着时间推移，面团的配方在不断调整，发酵的温度也在变化，每个鼓包的位置和大小都应该相应地改变。MMOT要做的，就是在面团不断变化的过程中，实时追踪这些鼓包的位置和形状，而不是在一开始就把鼓包的位置钉死。

要实现这一点，研究团队引入了"最优传输理论"（Optimal Transport，简称OT），特别是其中的"Wasserstein距离"。Wasserstein距离是一种衡量两个分布之间差异的方式，它的特别之处在于，它不仅考虑两个分布"有多不同"，还考虑"把一个分布变形成另一个分布需要搬运多少东西"——就像搬家时，不只看两栋楼的距离，还要考虑每件家具的重量和搬运路径。

与另一种常用的差异度量方式KL散度相比，Wasserstein距离有几个明显优势。KL散度在某种程度上等同于最大化对数似然估计，而这正是传统EM算法（期望最大化算法）的工作原理。EM算法每次更新都需要多轮迭代才能收敛，在数据持续流入的在线场景下，这种"每次学新东西都要反复折腾好几圈"的方式代价太高了。Wasserstein距离则是一个处处可微、连续稳定的度量，即使两个分布的支撑集几乎不重叠，它也能给出有意义的梯度信号，非常适合用梯度下降这种"每次小步走"的方式来优化。

四、MMOT的具体运作：高斯混合模型遇上最优传输

具体来说，MMOT的工作方式是这样的。对于每一个类别，研究团队用一个高斯混合模型来表示它的数据分布：这个混合模型由若干个高斯分量组成，每个分量有自己的均值（对应一个"代表点"或"质心"）、方差（对应这个聚集区的"扩散范围"）和权重（对应这个聚集区在整体中的比例）。

为了让这个混合模型尽可能贴近真实的数据分布，研究团队将问题转化为最小化真实数据分布与混合模型之间的Wasserstein距离。这个目标函数通过一种叫做"熵正则化对偶形式"的技术被转化为期望值的形式，使得可以用小批量数据来做随机梯度优化——这正好契合在线学习"每次只看一小批数据"的设定。

为了让梯度能够顺畅地流回到混合模型的参数，研究团队还引入了两个技巧。一个是"重参数化技巧"：从高斯分布中采样时，不直接采样，而是把随机性分离出来，表示为均值加上标准差乘以一个标准正态噪声。另一个是"Gumbel-Softmax技巧"：在从多个高斯分量中选择时，用一种连续的近似方式代替离散的抽签，使得权重参数也能通过梯度下降来学习。

这两个技巧合在一起，使得整个混合模型的所有参数——每个质心的位置、每个分量的扩散范围、以及每个分量的权重——都可以通过普通的梯度下降来更新，而不需要EM算法那种反复迭代的流程。每次新的一批数据到来，只需要做几步梯度更新，质心们就能跟着数据的变化悄悄挪动位置，始终保持对当前数据分布的准确描述。

还有一个值得注意的细节：虽然每个类别的混合模型是独立学习的，彼此不直接交互，但每个混合模型只会用自己对应类别的数据来更新，因此不同类别之间的信息不会混淆。整个过程对单个类别内部是无监督的，但从全局来看仍然是类条件的，结构清晰，不会出现类别特征被无序混合的问题。

五、动态保持策略：让不同类别的"泡泡"保持距离

有了MMOT学到的多个质心之后，研究团队还设计了一个配套的训练策略，称为"动态保持"（Dynamic Preservation）。这个策略的目的是利用质心信息来加强模型对不同类别的区分能力，防止随着新任务的学习，旧类别的特征在记忆空间里逐渐模糊。

动态保持的核心是一个对比式的目标函数。对于当前批次中的每一个样本，目标函数鼓励它的特征向自己所属类别的所有质心靠近，同时远离其他类别的特征和质心。不同于只用一个原型的方法，这里用多个质心来代表每个类别，相当于用多条"磁力线"来吸引样本，而不是只有一个吸引中心。特别是那些位于类别边界区域的质心，能够更精准地定义类别的边界，帮助模型学到更清晰的决策边界。

经过动态保持训练后，同一类别的样本在记忆空间里会更加紧密地聚在一起，不同类别的样本则会被推得更远。这种"内部紧凑、外部分离"的结构，使得模型在面对新任务时不容易把旧类别的特征挤乱，从而更好地对抗灾难性遗忘。

六、记忆回放与样本选择：让缓冲区里的旧样本更有代表性

在线增量学习通常还维护着一个"记忆缓冲区"，用来存储一小部分历史样本，以便在学习新任务时重播旧任务的数据，防止遗忘。研究团队的方案在样本选择上也利用了MMOT学到的质心信息。

具体做法是：对于每个质心，从当前批次中选取距离该质心最近的若干个样本加入缓冲区。这样一来，缓冲区里保存的样本能够覆盖每个类别的不同聚集区域，具有更强的代表性和多样性，而不是随机堆砌的一批数据。当缓冲区满了需要替换时，则随机淘汰旧样本，让位于新到来的样本。这种有针对性的采样方式，使得有限的缓冲区空间能够发挥出更大的价值，为动态保持策略提供更高质量的历史数据支撑。

七、推断阶段：用马氏距离做更聪明的分类

当模型训练完毕，需要对新来的未见样本做分类时，MMOT的多质心结构也带来了推断方式上的创新。

传统方法通常计算样本特征与每个类别单一原型之间的距离，选择最近的类别作为预测结果。在MMOT框架下，每个类别有多个高斯分量，每个分量都有自己的质心和协方差矩阵。研究团队采用"马氏距离"（Mahalanobis distance）来衡量样本与每个高斯分量的相似度。

马氏距离与普通欧氏距离的区别，可以用"胖瘦判断"来比喻。欧氏距离只看两点之间的直线长度，就像只看体重；马氏距离则同时考虑数据分布的形状，就像考虑一个人的身高和骨架之后再判断胖瘦。对于分布形状不规则的高斯分量，马氏距离能给出更准确的相似度判断。

对于一个待分类的样本，模型先计算它与某个类别下所有高斯分量的马氏距离，取最小值作为该样本与这个类别的"相似度分数"，然后在所有类别中选择分数最低（即最相似）的那个作为预测结果。多个质心组成的"防护网"比单个质心的"一根杆"能更全面地覆盖类别的特征空间，对那些落在类别边缘区域的样本尤其友好。

八、实验验证：在四个标准数据集上的表现

研究团队在四个广泛使用的基准数据集上验证了OTC的效果，分别是手写数字识别的MNIST、小图像分类的CIFAR-10和CIFAR-100，以及更具挑战性的Tiny-ImageNet。这些数据集被分割成多个连续的任务：CIFAR-10分成5个任务，CIFAR-100分成10个任务，Tiny-ImageNet分成100个任务。模型每次只接收一小批数据，批次大小仅为10张图片，从缓冲区调取的旧样本批次大小为64。

对比的基线方法包括9种当前最具代表性的方案：ER、ASER、CoPE、OCM、GSA、OnPro、MOSE、SBS以及BiC+AC。评价指标主要是两个：最终平均准确率（越高越好）和最终平均遗忘度（越低越好）。

在平均准确率方面，OTC在大多数数据集和内存配置下都超越了所有基线，领先幅度达到2%乃至13%。特别是在最具挑战性的Tiny-ImageNet数据集（100个连续任务）上，OTC比次优基线高出约13%，这是一个相当显著的差距。在内存最为紧张的配置下（每个数据集中内存最小的那组），OTC的优势最为突出，这对实际部署场景尤为重要。

在遗忘控制方面，OTC在CIFAR-10和CIFAR-100上始终处于遗忘最小的前两名。在Tiny-ImageNet上，有一个基线CoPE的遗忘度看起来更低，但研究团队通过可视化分析揭示了背后的原因：CoPE在这个数据集上从一开始就学得很差，初始准确率本来就低，所以后来遗忘的"量"自然也少。这就好比一个人本来就没学会多少内容，当然不容易忘——但这不代表它学得好。OTC即使遗忘略多，仍然在最终准确率上超越了它，保持在表现最优的前三名之列。

研究团队还通过t-SNE可视化（一种把高维特征压缩到二维展示的技术，类似把立体地形图压成平面地图）直观展示了不同方法下记忆空间的结构。使用4个自适应质心的OTC，其特征点分布明显比使用单一质心的方法更有条理，不同类别之间的边界更清晰，同一类别内部的结构也更完整。

九、消融实验：每个设计选择的贡献有多大

为了更深入地理解每个设计选择的必要性，研究团队还做了一系列消融实验。

在质心数量的影响方面，研究发现并非质心越多越好。以CIFAR-10为例，当质心数量从1个增加到4个时，准确率稳步提升；但当质心继续增加到5个乃至更多时，性能开始下降，尤其在内存较小的配置下更为明显。直觉上，质心数量太少则无法充分刻画数据的多模态结构，太多则可能导致过拟合，而且每个质心分配到的历史样本数量也会相应减少，降低学习质量。内存越大，能支撑的理想质心数量也越大。

在样本选择策略的影响方面，研究对比了"基于质心选择样本"与"随机选择样本"两种方式。结果显示，基于质心的选择策略在所有质心数量配置下都优于随机选择，差距约在2到3个百分点。这说明质心确实帮助提升了缓冲区样本的代表性和多样性，让有限的存储空间发挥出更大的价值。

在离线学习场景中，研究团队也将OTC与DER++、GeoDL、Co2L等典型的离线类增量学习方法做了比较。即使在不限制在线更新次数的离线场景下，OTC依然在CIFAR-10和CIFAR-100上全面超越这些基线，最大差距超过6%，说明OTC的优势不局限于在线场景，具有更广泛的适用性。

十、与传统EM算法的效率对比

研究团队还从计算复杂度角度详细分析了MMOT与传统EM算法的差异。

在传统EM算法中，每次更新需要对所有数据点计算所有K个高斯分量的响应度，然后更新参数，这个过程需要重复许多次才能收敛，总体时间复杂度为O(I_EM × B × K × d)，其中I_EM是迭代次数，B是批次大小，K是分量数，d是特征维度。

MMOT则通过重参数化和Gumbel-Softmax技巧，把整个过程转化为单次（或少次）梯度更新，时间复杂度约为O(T_phi × B + B × K × d + S × B × d)，其中T_phi是对偶网络的更新次数（通常很小），S是负样本数量（通常不超过1）。由于不需要维护每个数据点对应每个分量的责任矩阵，内存消耗也更低。当EM的迭代次数I_EM超过几次时，MMOT在时间和内存上都更加经济，且单次随机更新的方式天然适合数据持续流入的在线场景。

说到底，这项来自五所高校联合团队的研究做了一件很有价值的事：它找到了一种既能捕捉数据复杂结构、又能实时跟上数据变化、还能高效运行的方案，把三个原本相互制约的需求统一在了一个框架里。数据的多模态性不再是障碍，特征空间的漂移不再是隐患，计算效率也不再是瓶颈。

这对于需要持续学习的AI系统来说意义不小。未来的自动驾驶系统、家用服务机器人、个性化推荐引擎，都需要在运行中不断学习而不遗忘。OTC提供的这套工具，可能会成为这类系统的重要基础设施之一。当然，任何研究都有其局限：质心数量的最优设置需要根据具体场景调整，缓冲区的选样策略还比较简单，未来也许有更精妙的替代方案。但作为在线增量学习领域将最优传输理论与混合模型结合的首次系统性探索，它开辟了一条值得继续深走的路。

如果你对这个话题感兴趣，不妨思考这样一个问题：除了图像识别，还有哪些场景的AI系统面临着"既要记住旧的、又要学好新的"这种两难困境？那些场景下，数据的多模态性又会以什么形式出现？有兴趣深入了解的读者，可以通过arXiv编号2211.16780查阅完整论文。

Q&A

Q1：OTC方法中的"多质心"和普通原型方法的"单原型"有什么本质区别？

A：单原型方法用一个固定点代表一个类别，就像只用城市中心点代表整座城市，无法反映数据内部的多样性。OTC的多质心方法则用多个自适应的代表点来覆盖一个类别的不同聚集区域，并且这些代表点会随着新数据的到来不断更新位置，更准确地追踪数据分布的真实结构，对边缘样本的分类尤为有利。

Q2：在线类增量学习中灾难性遗忘是什么意思？

A：灾难性遗忘是指AI模型在学习新任务时，把之前学到的旧任务知识快速、大量地覆盖掉。就像每学一门新课就忘掉上一门课一样。这在数据持续流入、模型不断更新的场景下尤为严重，是在线持续学习领域最核心的挑战之一。OTC通过动态保持策略和基于质心的样本回放，让模型在学习新内容时同时维护对旧类别的记忆。

Q3：MMOT框架为什么用Wasserstein距离而不用更常见的KL散度来训练高斯混合模型？

A：KL散度在数学上等价于EM算法的最大化对数似然，而EM算法每次更新都需要多轮迭代，在数据实时流入的在线场景中代价过高。Wasserstein距离是处处可微的连续度量，即使两个分布几乎不重叠也能提供有效梯度，天然支持用梯度下降做单步更新，同时还尊重数据的几何结构，使得高斯混合模型的参数学习更准确、更稳定。

【纠错】

【责任编辑:OverTheTop】

深度观察

新华全媒头条丨辽宁开原风电项目投运年减碳49.6万吨