Inducing Generalization across Languages and Tasks using Featurized Low-Rank Mixtures

要約

事前トレーニングされた大規模言語モデル (LLM) を数十または数百の人間の言語でのさまざまな下流タスクに適応させるには、計算コストがかかります。
パラメーター効率の良い微調整 (PEFT) は、少量のパラメーターのみを調整することで、適応コストを大幅に削減します。
ただし、一般的な PEFT 手法である LoRA (Hu et al., 2022) は、積極的なパラメーターの結合と異なるデータセット間の負の干渉により、多様なデータセットの混合では次善のパフォーマンスに悩まされます。
この研究では、効果的なマルチタスク多言語適応のために設計された新しい PEFT 手法である Featurized Low-rank Mixtures (FLix) を提案します。
FLix は、データセットの言語やタスクなどの各固有のデータセット機能を、独自の低ランクの重み更新パラメーターに関連付けます。
データセットごとに特徴固有のパラメーターを構成することで、FLix は多様なデータセットの混合に対応し、まだ見ぬデータセットをより適切に一般化できます。
私たちの実験では、FLix が教師あり学習とゼロショット設定の両方でさまざまなタスクを大幅に改善し、ゼロショット セマンティック解析で不完全一致ポイントが最大 14.2 ドル増加することが示されました。

要約(オリジナル)

Adapting pretrained large language models (LLMs) to various downstream tasks in tens or hundreds of human languages is computationally expensive. Parameter-efficient fine-tuning (PEFT) significantly reduces the adaptation cost, by tuning only a small amount of parameters. However, common PEFT methods LoRA (Hu et al., 2022) suffer from suboptimal performance on diverse dataset mixtures, due to aggressive parameter tying and negative interference among different datasets. In this work, we propose Featurized Low-rank Mixtures (FLix), a novel PEFT method designed for effective multitask multilingual adaptation. FLix associates each unique dataset feature, such as the dataset’s language or task, with its own low-rank weight update parameters. By composing feature-specific parameters for each dataset, FLix can accommodate diverse dataset mixtures and generalize better to unseen datasets. Our experiments show that FLix leads to significant improvements over a variety of tasks for both supervised learning and zero-shot settings with gains of up to $14.2$ inexact match points in zero-shot semantic parsing.

arxiv情報

著者 Chu-Cheng Lin,Xinyi Wang,Jonathan H. Clark,Han Lu,Yun Zhu,Chenxi Whitehouse,Hongkun Yu
発行日 2024-08-01 05:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク