Domain-Agnostic Neural Architecture for Class Incremental Continual Learning in Document Processing Platform

要約

複雑なシステムにおける運用環境のデプロイメントでは、ML アーキテクチャが効率性が高く、複数のタスクに対して使用できることが必要です。
特に要求が厳しいのは、データがストリーミング形式で到着し、各クラスが個別に提示される分類問題です。
確率的勾配学習を使用した最近の手法は、そのような設定では困難であるか、メモリ バッファーなどの制限があり、特定のドメインに制限されているために現実世界のシナリオでは使用できないことがわかっています。
このため、専門家の混合モデルに基づいた完全に微分可能なアーキテクチャを提示します。これにより、各クラスの例が個別に提示された場合に高性能の分類器のトレーニングが可能になります。
私たちは徹底的な実験を実施し、さまざまなドメインへの適用可能性と、実稼働環境でオンラインで学習できることを証明しました。
提案された手法はメモリ バッファなしで SOTA の結果を達成し、明らかに参照手法よりも優れています。

要約(オリジナル)

Production deployments in complex systems require ML architectures to be highly efficient and usable against multiple tasks. Particularly demanding are classification problems in which data arrives in a streaming fashion and each class is presented separately. Recent methods with stochastic gradient learning have been shown to struggle in such setups or have limitations like memory buffers, and being restricted to specific domains that disable its usage in real-world scenarios. For this reason, we present a fully differentiable architecture based on the Mixture of Experts model, that enables the training of high-performance classifiers when examples from each class are presented separately. We conducted exhaustive experiments that proved its applicability in various domains and ability to learn online in production environments. The proposed technique achieves SOTA results without a memory buffer and clearly outperforms the reference methods.

arxiv情報

著者 Mateusz Wójcik,Witold Kościukiewicz,Mateusz Baran,Tomasz Kajdanowicz,Adam Gonczarek
発行日 2023-07-11 16:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク