要約
モデルパラメーターの複雑さが増加するため、事前に訓練されたモデルは好ましいバックボーンになりました。
ただし、従来の事前に訓練されたモデルは、固定サイズのために展開の課題に直面していることが多く、トレーニングタスクとターゲットタスクの間に矛盾が生じた場合に否定的な転送が起こりやすくなります。
これに対処するために、分解可能なモデルを構築するために設計された新しいトレーニング方法である種類を提案します。
Kindは、各基本コンポーネントがu、\ sigma、およびv^\ topマトリックスの列ベクトル、特異値、およびrowベクトルの組み合わせとして表され、各基本コンポーネントを構造的制約として組み込むことにより、知識を統合します。
これらのコンポーネントは、トレーニング中のクラスゲートメカニズムによって促進される知識の転換により、クラスに依存しない知識とクラス固有の知識をキャプチャするためのカプセルをカプセル化するための学習ゲンに分類されます。
広範な実験では、種類の事前に訓練されたモデルが学習者と仕立て屋に分解できることを示しています。
さらに、大規模なドメインシフトを持つタスクの場合、ランダムに初期化されたテーラーと組み合わせると、タスクに依存しない知識を持つ学習ゲンのみを転送すると、ドメインシフトを効果的に緩和します。
コードはhttps://github.com/te4p0t/kindで利用可能になります。
要約(オリジナル)
Pre-trained models have become the preferred backbone due to the increasing complexity of model parameters. However, traditional pre-trained models often face deployment challenges due to their fixed sizes, and are prone to negative transfer when discrepancies arise between training tasks and target tasks. To address this, we propose KIND, a novel pre-training method designed to construct decomposable models. KIND integrates knowledge by incorporating Singular Value Decomposition (SVD) as a structural constraint, with each basic component represented as a combination of a column vector, singular value, and row vector from U, \Sigma, and V^\top matrices. These components are categorized into learngenes for encapsulating class-agnostic knowledge and tailors for capturing class-specific knowledge, with knowledge diversion facilitated by a class gate mechanism during training. Extensive experiments demonstrate that models pre-trained with KIND can be decomposed into learngenes and tailors, which can be adaptively recombined for diverse resource-constrained deployments. Moreover, for tasks with large domain shifts, transferring only learngenes with task-agnostic knowledge, when combined with randomly initialized tailors, effectively mitigates domain shifts. Code will be made available at https://github.com/Te4P0t/KIND.
arxiv情報
著者 | Yucheng Xie,Fu Feng,Ruixiao Shi,Jing Wang,Yong Rui,Xin Geng |
発行日 | 2025-05-20 17:08:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google