要約
アダプターは、(ゼロショットの)言語間転送へのモジュール式でパラメータ効率の高いアプローチとして登場しました。
確立された MAD-X フレームワークは、個別の言語アダプターとタスク アダプターを採用しており、これらを任意に組み合わせて、任意のタスクを任意のターゲット言語に転送できます。
その後、MAD-X フレームワークの拡張である BAD-X は、ソースとターゲットの言語ペアに固有の「バイリンガル」アダプターを作成することにより、MAD-X のモジュール性を犠牲にして転送の向上を実現しました。
この作業では、(i) ターゲット言語に適合したタスク アダプター (いわゆる「ターゲット言語対応」(TLR) アダプター) を微調整して、高い転送パフォーマンスを維持することで、両方の長所を活用することを目指しています。
ただし、(ii) MAD-X の高度にモジュール化された設計を犠牲にすることはありません。
「ターゲット言語対応」アダプターの主なアイデアは、MAD-X のトレーニングと推論の不一致を解決することです。タスク アダプターは、推論中に初めてターゲット言語アダプターを「認識」するため、完全には認識されない可能性があります。
それと互換性があります。
私たちは、トレーニング中にタスク アダプターをターゲット言語アダプターに公開することでこの不一致に対処し、アイデアのいくつかの変形を経験的に検証します。最も単純な形式では、タスク アダプターのトレーニング中にソース言語アダプターとターゲット言語アダプターを交互に使用します。これは一般化できます。
任意の言語アダプターのセットを循環します。
私たちは、一連の標準的な言語間ベンチマーク全体にわたって、さまざまな程度の汎用性を持つさまざまな TLR ベースの転送構成を評価しました。その結果、最も一般的な (したがって最もモジュール化された) 構成が、ほとんどのタスクと言語で一貫して MAD-X および BAD-X よりも優れていることがわかりました。
。
要約(オリジナル)
Adapters have emerged as a modular and parameter-efficient approach to (zero-shot) cross-lingual transfer. The established MAD-X framework employs separate language and task adapters which can be arbitrarily combined to perform the transfer of any task to any target language. Subsequently, BAD-X, an extension of the MAD-X framework, achieves improved transfer at the cost of MAD-X’s modularity by creating ‘bilingual’ adapters specific to the source-target language pair. In this work, we aim to take the best of both worlds by (i) fine-tuning task adapters adapted to the target language(s) (so-called ‘target language-ready’ (TLR) adapters) to maintain high transfer performance, but (ii) without sacrificing the highly modular design of MAD-X. The main idea of ‘target language-ready’ adapters is to resolve the training-vs-inference discrepancy of MAD-X: the task adapter ‘sees’ the target language adapter for the very first time during inference, and thus might not be fully compatible with it. We address this mismatch by exposing the task adapter to the target language adapter during training, and empirically validate several variants of the idea: in the simplest form, we alternate between using the source and target language adapters during task adapter training, which can be generalized to cycling over any set of language adapters. We evaluate different TLR-based transfer configurations with varying degrees of generality across a suite of standard cross-lingual benchmarks, and find that the most general (and thus most modular) configuration consistently outperforms MAD-X and BAD-X on most tasks and languages.
arxiv情報
| 著者 | Marinela Parović,Alan Ansell,Ivan Vulić,Anna Korhonen |
| 発行日 | 2023-06-05 10:46:33+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google