Continual Learning with Optimal Transport based Mixture Model

要約

オンラインクラス漸増学習(CIL)は継続学習(CL)の難しい設定である。新しいタスクのデータが入力され、オンライン学習モデルは以前のものを再検討することなく入力データストリームを処理する必要があるからである。既存の研究では、クラスを特徴付けるために、入力データストリームに適応した単一のセントロイドを使用していた。このアプローチは、あるクラスの入力データストリームが自然にマルチモーダルである場合に、限界をもたらす可能性がある。この問題に対処するため、本研究ではまず、成熟した最適輸送理論(OT-MM)の優れた特性に基づいて、オンライン混合モデル学習アプローチを提案する。具体的には、混合モデルのセントロイドと共分散行列は、入力されるデータストリームに従って漸進的に適応される。その利点は、(i)複雑なデータストリームをより正確に特徴付けることができる、(ii)OT-MMが生成する各クラスのセントロイドを用いることで、推論時に未見例の各クラスへの類似度をより合理的に推定できる、の2点である。さらに、CILシナリオにおける壊滅的な忘却に対処するため、動的保存をさらに提案する。特に、データストリームをまたいで動的保存技術を実行した後、新旧タスクのクラスの潜在的表現がより凝縮され、互いにより分離される。この技術は収縮特徴抽出器とともに、壊滅的な忘却を緩和するモデルを促進する。実世界のデータセットに対する実験結果から、提案手法は現在の最先端ベースラインを大幅に上回る性能を持つことが示された。

要約(オリジナル)

Online Class Incremental learning (CIL) is a challenging setting in Continual Learning (CL), wherein data of new tasks arrive in incoming streams and online learning models need to handle incoming data streams without revisiting previous ones. Existing works used a single centroid adapted with incoming data streams to characterize a class. This approach possibly exposes limitations when the incoming data stream of a class is naturally multimodal. To address this issue, in this work, we first propose an online mixture model learning approach based on nice properties of the mature optimal transport theory (OT-MM). Specifically, the centroids and covariance matrices of the mixture model are adapted incrementally according to incoming data streams. The advantages are two-fold: (i) we can characterize more accurately complex data streams and (ii) by using centroids for each class produced by OT-MM, we can estimate the similarity of an unseen example to each class more reasonably when doing inference. Moreover, to combat the catastrophic forgetting in the CIL scenario, we further propose Dynamic Preservation. Particularly, after performing the dynamic preservation technique across data streams, the latent representations of the classes in the old and new tasks become more condensed themselves and more separate from each other. Together with a contraction feature extractor, this technique facilitates the model in mitigating the catastrophic forgetting. The experimental results on real-world datasets show that our proposed method can significantly outperform the current state-of-the-art baselines.

arxiv情報

著者 Quyen Tran,Hoang Phan,Khoat Than,Dinh Phung,Trung Le
発行日 2022-12-05 16:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク