PMoE: Progressive Mixture of Experts with Asymmetric Transformer for Continual Learning

要約

大規模言語モデル (LLM) は、新しい情報が以前に取得した知識を上書きする壊滅的な忘却により、継続的な学習において重大な課題に直面します。
この制限は、実質的な環境的および経済的無駄につながります。
この研究では、PMoE (プログレッシブ・ミクスチャー・オブ・エキスパート・ウィズ・アシンメトリック・トランスフォーマー) を導入します。これは、一般知識専用の浅いレイヤーと新しい知識専用の深いレイヤーを備えた非対称設計を利用することで、忘却を最小限に抑えることを目的としています。
PMoE には、深い層に段階的に追加される専門家と、新しい知識を適切な専門家に効率的に割り当てるルーターが組み込まれています。
ルーターは深い層に隣接して配置され、統合された情報を集約する深い機能を利用します。
これにより、ルーターは効率的に実行できるようになり、深い層で徐々に増加する適切な専門家に新しい知識が割り当てられます。
TRACE データセットと一般言語理解データセットに関する広範な実験により、提案された PMoE が以前の最先端のアプローチよりも優れていることが実証されました。

要約(オリジナル)

Large Language Models (LLMs) encounter significant challenges in continual learning due to catastrophic forgetting, where new information overwrites previously acquired knowledge. This limitation leads to substantial environmental and economic waste. In this study, we introduce the PMoE, Progressive Mixture of Experts with Asymmetric Transformer, which aims to minimize forgetting by utilizing an asymmetric design with shallow layers dedicated to general knowledge and deep layers for new knowledge. PMoE incorporates progressively added experts in deep layers and a router that allocates new knowledge to the appropriate experts efficiently. The router, positioned adjacent to the deep layers, utilizes deep features aggregating consolidated information. This enables the router to perform efficiently, allocating new knowledge to the appropriate experts, which progressively increase in the deep layers. Extensive experiments on TRACE datasets and general language understanding datasets demonstrate that the proposed PMoE outperforms previous state-of-the-art approaches.

arxiv情報

著者 Min Jae Jung,JooHee Kim
発行日 2024-07-31 12:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク