Multi-Head Adapter Routing for Cross-Task Generalization

要約

クロスタスク汎化のためのパラメーター効率の良い微調整 (PEFT) は、テスト タスクへの少数ショット適応の前に、マルチタスク トレーニング セットでアダプターを事前トレーニングすることで構成されます。
Polytropon [Ponti et al., 2023] ($\texttt{Poly}$) は、アダプターのインベントリと、事前トレーニングと少数のタスクの両方でタスクごとにアダプターの (可変サイズの) サブセットを選択するルーティング関数を共同学習します。
ショットの適応。
このペーパーでは、アダプター ルーティングが成功に果たす役割を調査し、その結果に基づいて新しいバリアントを設計します。
まず、よりきめの細かいルーティングにより表現力が向上するという直観に基づいています。
したがって、アダプター パラメーターのサブセットを組み合わせ、同等のパラメーター バジェットの下で $\texttt{Poly}$ よりも優れたパフォーマンスを発揮する $\texttt{MHR}$ (マルチヘッド ルーティング) を提案します。
アダプター ($\texttt{MHR}$-$z$) ではなく、ルーティング機能のみを微調整することで、極めて高いパラメーター効率で競争力のあるパフォーマンスを実現します。
第二に、$\texttt{Poly}$/$\texttt{MHR}$ のパフォーマンスは、以前に仮説を立てたように、アダプターの組み換えと局所適応を促進するモジュール式の誘導バイアスではなく、より優れたマルチタスク最適化の結果であることがわかります。
実際、$\texttt{MHR}$ はトレーニング タスク間で高い勾配の整合を示していることがわかります。
我々は、ルーティングが数ショット適応中ではなくマルチタスクの事前トレーニング中に最も有益であることを発見し、ルーティングを破棄して事前トレーニングされたタスクの平均を微調整する $\texttt{MHR}$-$\mu$ を提案します。
各ダウンストリーム タスクのアダプター。
これにより、$\texttt{MHR}$-$\mu$ が単一アダプターの微調整の効果的な方法として確立されます。
また、$\texttt{MHR}$-$\mu$ は、マルチタスク トレーニング セットでいくつかの追加ステップの事前トレーニング済みアダプターの平均をトレーニングすることで、効果的なゼロショット転送方法として使用できることも示します。
これにより、絶対精度が最大 3% 向上します。
ベースライン。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) for cross-task generalization consists in pre-training adapters on a multi-task training set before few-shot adaptation to test tasks. Polytropon [Ponti et al., 2023] ($\texttt{Poly}$) jointly learns an inventory of adapters and a routing function that selects a (variable-size) subset of adapters for each task during both pre-training and few-shot adaptation. In this paper, we investigate the role that adapter routing plays in its success and design new variants based on our findings. First, we build on the intuition that finer-grained routing provides more expressivity. Hence, we propose $\texttt{MHR}$ (Multi-Head Routing) which combines subsets of adapter parameters and outperforms $\texttt{Poly}$ under a comparable parameter budget; by only fine-tuning the routing function and not the adapters ($\texttt{MHR}$-$z$) we achieve competitive performance with extreme parameter efficiency. Second, we find that $\texttt{Poly}$/$\texttt{MHR}$ performance is a result of better multi-task optimization, rather than modular inductive biases that facilitate adapter recombination and local adaptation, as previously hypothesized. In fact, we find that $\texttt{MHR}$ exhibits high gradient alignment between training tasks. We find that routing is most beneficial during multi-task pre-training rather than during few-shot adaptation and propose $\texttt{MHR}$-$\mu$, which discards routing and fine-tunes the average of the pre-trained adapters on each downstream tasks. This establishes $\texttt{MHR}$-$\mu$ as an effective method for single-adapter fine-tuning. We also show that $\texttt{MHR}$-$\mu$ can be used as an effective zero-shot transfer method by training the average of the pre-trained adapters for a few additional steps on the multi-task training set: this yields gains up to 3% on absolute accuracy w.r.t. the baselines.

arxiv情報

著者 Lucas Caccia,Edoardo Ponti,Zhan Su,Matheus Pereira,Nicolas Le Roux,Alessandro Sordoni
発行日 2023-11-13 15:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク