An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems

要約

マルチタスク学習は、複数のタスクから学習できるモデルが、人間の学習の重要な機能である知識の伝達を通じて、より良い品質と効率を達成できることを前提としています。
ただし、最先端のMLモデルは、各タスクの高度なカスタマイズに依存しており、タスクの数をスケーリングするのではなく、サイズとデータのスケールを活用します。
また、マルチタスクに時間的側面を追加する継続的な学習は、次世代の人工知能を構築するための重要なコンポーネントとして大規模に研究されるのではなく、壊滅的な忘却などの一般的な落とし穴の研究に焦点を当てることがよくあります。
大規模なマルチタスクモデルを生成でき、新しいタスクの動的かつ継続的な追加をサポートできる進化的手法を提案します。
生成されたマルチタスクモデルはまばらにアクティブ化され、タスクベースのルーティングを統合します。これにより、モデルが拡張するにつれて、制限された計算コストとタスクごとの追加パラメーターが少なくなります。
提案された方法は、知識の区分化手法に依存して、壊滅的な忘却や、勾配干渉や負の伝達などの他の一般的な落とし穴に対する耐性を実現します。
提案された方法が69の画像分類タスクで共同で解決し、競争力のある結果を達成できることを経験的に示します。たとえば、cifar10:99.43%などの競争力のあるタスクの公開データのみでトレーニングされたモデルで報告された最高のテスト精度を達成します。

要約(オリジナル)

Multitask learning assumes that models capable of learning from multiple tasks can achieve better quality and efficiency via knowledge transfer, a key feature of human learning. Though, state of the art ML models rely on high customization for each task and leverage size and data scale rather than scaling the number of tasks. Also, continual learning, that adds the temporal aspect to multitask, is often focused to the study of common pitfalls such as catastrophic forgetting instead of being studied at a large scale as a critical component to build the next generation artificial intelligence. We propose an evolutionary method that can generate a large scale multitask model, and can support the dynamic and continuous addition of new tasks. The generated multitask model is sparsely activated and integrates a task-based routing that guarantees bounded compute cost and fewer added parameters per task as the model expands. The proposed method relies on a knowledge compartmentalization technique to achieve immunity against catastrophic forgetting and other common pitfalls such as gradient interference and negative transfer. We empirically show that the proposed method can jointly solve and achieve competitive results on 69image classification tasks, for example achieving the best test accuracy reported fora model trained only on public data for competitive tasks such as cifar10: 99.43%.

arxiv情報

著者 Andrea Gesmundo,Jeff Dean
発行日 2022-06-05 04:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE パーマリンク