要約
下流の生成タスクで事前トレーニングされたモデルを微調整すると、ゼロショット条件で致命的な忘却が発生することがよくあります。
この研究では、要約に焦点を当て、言語に依存しない表現のレンズを通して問題に取り組みます。
単一言語要約のトレーニング後、新しい言語または言語ペアへのゼロショット転送を実行します。
まず、単純に微調整されたモデルは、出力動作と内部表現の両方において言語固有性が高く、ゼロショット パフォーマンスが低下することを示します。
次に、タスク固有の知識を事前トレーニングされた言語生成能力から切り離すためのクエリキー (QK) の微調整を提案します。
次に、標準的な敵対的言語分類子の欠点を示した後、言語に依存しない表現をより直接的に強制するバランスのとれたバリアントを提案します。
さらに、私たちの定性分析では、ソース言語の同一性の削除がゼロショット要約のパフォーマンスと相関していることが示されています。
私たちのコードは公開されています。
要約(オリジナル)
Finetuning pretrained models on downstream generation tasks often leads to catastrophic forgetting in zero-shot conditions. In this work, we focus on summarization and tackle the problem through the lens of language-independent representations. After training on monolingual summarization, we perform zero-shot transfer to new languages or language pairs. We first show naively finetuned models are highly language-specific in both output behavior and internal representations, resulting in poor zero-shot performance. Next, we propose query-key (QK) finetuning to decouple task-specific knowledge from the pretrained language generation abilities. Then, after showing downsides of the standard adversarial language classifier, we propose a balanced variant that more directly enforces language-agnostic representations. Moreover, our qualitative analyses show removing source language identity correlates to zero-shot summarization performance. Our code is openly available.
arxiv情報
著者 | Vladimir Solovyev,Danni Liu,Jan Niehues |
発行日 | 2024-04-08 17:56:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google