要約
生涯学習 (L3) モデルは、新しい概念を順次学習する間に埋め込み空間の幾何学的構成が変化するため、一連のタスクでトレーニングされるとパフォーマンスが低下します。
既存の L3 アプローチの大部分は、データの複雑な幾何学的構造のモデル化には必ずしも適していない固定曲率 (曲率ゼロのユークリッドなど) 空間で動作します。
さらに、蒸留戦略は低次元の埋め込みに制約を直接適用し、モデルを高度に安定させることで、L3 モデルが新しい概念を学習するのを妨げます。
この問題に対処するために、混合曲率空間で動作し、複雑な幾何学的構造をモデル化して維持することですでに学習した知識を保存する、L3DMC という名前の蒸留戦略を提案します。
我々は、リッチ表現を達成するために、正定値カーネル関数を使用して、固定曲率空間 (ユークリッドおよび双曲) の投影低次元埋め込みを高次元再生カーネル ヒルベルト空間 (RKHS) に埋め込むことを提案します。
その後、新しいサンプル表現と、RKHS の古い表現を使用して構築された部分空間との間の差異を最小限に抑えて、L3 モデルを最適化します。
L3DMC は、複数の固定曲率空間の表現力を組み合わせて高次元の RKHS で実行されるため、古い知識を忘れることなく、新しい知識をより適切に適応させることができます。
3 つのベンチマークでの徹底的な実験により、L3 設定での医用画像分類に対する私たちが提案した蒸留戦略の有効性が実証されました。
コード実装は https://github.com/csiro-robotics/L3DMC で公開されています。
要約(オリジナル)
The performance of a lifelong learning (L3) model degrades when it is trained on a series of tasks, as the geometrical formation of the embedding space changes while learning novel concepts sequentially. The majority of existing L3 approaches operate on a fixed-curvature (e.g., zero-curvature Euclidean) space that is not necessarily suitable for modeling the complex geometric structure of data. Furthermore, the distillation strategies apply constraints directly on low-dimensional embeddings, discouraging the L3 model from learning new concepts by making the model highly stable. To address the problem, we propose a distillation strategy named L3DMC that operates on mixed-curvature spaces to preserve the already-learned knowledge by modeling and maintaining complex geometrical structures. We propose to embed the projected low dimensional embedding of fixed-curvature spaces (Euclidean and hyperbolic) to higher-dimensional Reproducing Kernel Hilbert Space (RKHS) using a positive-definite kernel function to attain rich representation. Afterward, we optimize the L3 model by minimizing the discrepancies between the new sample representation and the subspace constructed using the old representation in RKHS. L3DMC is capable of adapting new knowledge better without forgetting old knowledge as it combines the representation power of multiple fixed-curvature spaces and is performed on higher-dimensional RKHS. Thorough experiments on three benchmarks demonstrate the effectiveness of our proposed distillation strategy for medical image classification in L3 settings. Our code implementation is publicly available at https://github.com/csiro-robotics/L3DMC.
arxiv情報
著者 | Kaushik Roy,Peyman Moghadam,Mehrtash Harandi |
発行日 | 2023-08-01 07:45:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google