Learngene: Inheriting Condensed Knowledge from the Ancestry Model to Descendant Models

要約

ある生物の祖先が継続的に進化する過程で、その遺伝子は広範な経験と知識を蓄積し、生まれたばかりの子孫が特定の環境に迅速に適応できるようにします。
この観察に動機づけられて、私たちは、学習モデルに遺伝子の 3 つの重要な特性を組み込むことを可能にする新しい機械学習パラダイム Learngene を提案します。
(i) 蓄積: 祖先モデルの継続的な学習中に知識が蓄積されます。
(ii) 凝縮: 蓄積された広範な知識が、よりコンパクトな情報片、すなわち、Learngene に凝縮されます。
(iii) 継承: 子孫モデルが新しい環境に適応しやすくするために、凝縮された学習遺伝子が継承されます。
蓄積は大規模な事前トレーニングや生涯学習などの確立されたパラダイムで研究されてきたため、ここでは 3 つの重要な問題を引き起こす凝縮と継承に焦点を当て、これらの問題に対する暫定的な解決策をこの論文で提供します。
形式: 学習遺伝子は、重要性を維持できるいくつかの統合層に設定されます。
(ii) Learngene Condensing: 祖先モデルのどの層が 1 つの疑似子孫モデルとして最も類似しているかを特定します。
(iii) Learngene の継承: 特定の下流タスク用の個別の子孫モデルを構築するために、いくつかのランダムに初期化された層を learngene 層に積み重ねます。
さまざまなデータセットでビジョン トランスフォーマー (ViT) や畳み込みニューラル ネットワーク (CNN) などのさまざまなネットワーク アーキテクチャを使用するなど、さまざまな設定にわたる広範な実験が行われ、Learngene の 4 つの利点が確認されました。1) 子孫モデルの収束がより速くなります。2)
) ハイパーパラメータに対する感度が低く、3) パフォーマンスが向上し、4) 収束するために必要なトレーニング サンプルが少なくなります。

要約(オリジナル)

During the continuous evolution of one organism’s ancestry, its genes accumulate extensive experiences and knowledge, enabling newborn descendants to rapidly adapt to their specific environments. Motivated by this observation, we propose a novel machine learning paradigm Learngene to enable learning models to incorporate three key characteristics of genes. (i) Accumulating: the knowledge is accumulated during the continuous learning of an ancestry model. (ii) Condensing: the extensive accumulated knowledge is condensed into a much more compact information piece, i.e., learngene. (iii) Inheriting: the condensed learngene is inherited to make it easier for descendant models to adapt to new environments. Since accumulating has been studied in well-established paradigms like large-scale pre-training and lifelong learning, we focus on condensing and inheriting, which induces three key issues and we provide the preliminary solutions to these issues in this paper: (i) Learngene Form: the learngene is set to a few integral layers that can preserve significance. (ii) Learngene Condensing: we identify which layers among the ancestry model have the most similarity as one pseudo descendant model. (iii) Learngene Inheriting: to construct distinct descendant models for the specific downstream tasks, we stack some randomly initialized layers to the learngene layers. Extensive experiments across various settings, including using different network architectures like Vision Transformer (ViT) and Convolutional Neural Networks (CNNs) on different datasets, are carried out to confirm four advantages of Learngene: it makes the descendant models 1) converge more quickly, 2) exhibit less sensitivity to hyperparameters, 3) perform better, and 4) require fewer training samples to converge.

arxiv情報

著者 Qiufeng Wang,Xu Yang,Shuxia Lin,Jing Wang,Xin Geng
発行日 2023-06-29 14:04:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク