One For All & All For One: Bypassing Hyperparameter Tuning with Model Averaging For Cross-Lingual Transfer

要約

多言語言語モデルにより、ゼロショット言語間転送 (ZS-XLT) が可能になります。大規模なソース言語タスク データに基づいて微調整され、ラベル付きインスタンスなしでターゲット言語でタスクを実行します。
ZS-XLT の有効性は、言語間の言語的な近さと、言語の事前トレーニング データの量によって決まります。
このため、ソース言語の検証に基づくモデル選択は信頼性が低く、ターゲット言語のパフォーマンスが最適ではないモデルのスナップショットが選択されてしまいます。
改善策として、ハイパーパラメータを広範囲に調整することによって ZS-XLT を最適化する作業もあります。その後のフォローアップ作業では、元の結果を再現するのに日常的に苦労します。
他の作業では、より狭いハイパーパラメータ グリッドを検索し、大幅に低いパフォーマンスを報告します。
したがって、この研究では、パフォーマンスの最大化をハイパーパラメータの調整から切り離す、ZS-XLT の教師なし評価プロトコルを提案します。
大規模なハイパーパラメータ調整に代わる堅牢かつ透明性の高い代替手段として、さまざまな実行からのスナップショットを累積的に平均して単一のモデルにすることを提案します。
私たちは、高レベルのセマンティック タスク (NLI、抽出 QA) と低レベルのトークン分類タスク (NER) の両方で広範な ZS-XLT 実験を実行しました。その結果、ソース言語の検証に基づく従来のモデル選択はすぐに次善の ZS-XLT で頭打ちになることがわかりました。
パフォーマンス。
一方、さまざまなハイパーパラメータでトレーニングされたモデルの実行ごとの累積平均は、ZS-XLT のパフォーマンスを向上させ、「オラクル」 ZS-XLT、つまりターゲット言語の検証パフォーマンスに基づくモデルの選択と密接に相関します。

要約(オリジナル)

Multilingual language models enable zero-shot cross-lingual transfer (ZS-XLT): fine-tuned on sizable source-language task data, they perform the task in target languages without labeled instances. The effectiveness of ZS-XLT hinges on the linguistic proximity between languages and the amount of pretraining data for a language. Because of this, model selection based on source-language validation is unreliable: it picks model snapshots with suboptimal target-language performance. As a remedy, some work optimizes ZS-XLT by extensively tuning hyperparameters: the follow-up work then routinely struggles to replicate the original results. Other work searches over narrower hyperparameter grids, reporting substantially lower performance. In this work, we therefore propose an unsupervised evaluation protocol for ZS-XLT that decouples performance maximization from hyperparameter tuning. As a robust and more transparent alternative to extensive hyperparameter tuning, we propose to accumulatively average snapshots from different runs into a single model. We run broad ZS-XLT experiments on both higher-level semantic tasks (NLI, extractive QA) and a lower-level token classification task (NER) and find that conventional model selection based on source-language validation quickly plateaus to suboptimal ZS-XLT performance. On the other hand, our accumulative run-by-run averaging of models trained with different hyperparameters boosts ZS-XLT performance and closely correlates with ‘oracle’ ZS-XLT, i.e., model selection based on target-language validation performance.

arxiv情報

著者 Fabian David Schmidt,Ivan Vulić,Goran Glavaš
発行日 2023-10-16 15:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク