要約
事前トレーニング済みのニューラル言語モデルから学習パターンを転送すると、さまざまな言語ベースのタスク全体で有効性が大幅に向上することが示されていますが、中間タスクがターゲット タスクに十分に関連している場合、中間タスクをさらに調整すると、パフォーマンスがさらに向上することが実証されています。
.
ただし、関連するタスクを特定する方法は未解決の問題であり、効果的なタスクの組み合わせを力ずくで検索するのは法外に高くつきます。
したがって、選択的な微調整を通じて、トレーニング例のないタスクの有効性と効率を改善できるかという疑問が生じます。
このホワイト ペーパーでは、1 つのタスク ペアを使用したチューニングが別のチューニングよりもパフォーマンス上の利点を示すかどうかを推定する手段として、ドメイン表現間の相違を概算する統計的尺度を調べます。
次に、この推定を使用して、メリットが得られそうにないペアを除外することで、テストする必要があるタスク ペアの数を減らすことができます。
58 のタスクと 6,600 を超えるタスク ペアの組み合わせを実験することで、統計的測定によって効果的なタスク ペアを識別できること、および結果として得られる推定値によってエンド ツー エンドのランタイムを最大 40% 削減できることを実証しました。
要約(オリジナル)
Transferring learned patterns from pretrained neural language models has been shown to significantly improve effectiveness across a variety of language-based tasks, meanwhile further tuning on intermediate tasks has been demonstrated to provide additional performance benefits, provided the intermediate task is sufficiently related to the target task. However, how to identify related tasks is an open problem, and brute-force searching effective task combinations is prohibitively expensive. Hence, the question arises, are we able to improve the effectiveness and efficiency of tasks with no training examples through selective fine-tuning? In this paper, we explore statistical measures that approximate the divergence between domain representations as a means to estimate whether tuning using one task pair will exhibit performance benefits over tuning another. This estimation can then be used to reduce the number of task pairs that need to be tested by eliminating pairs that are unlikely to provide benefits. Through experimentation over 58 tasks and over 6,600 task pair combinations, we demonstrate that statistical measures can distinguish effective task pairs, and the resulting estimates can reduce end-to-end runtime by up to 40%.
arxiv情報
著者 | Alexander Pugantsov,Richard McCreadie |
発行日 | 2023-02-28 11:26:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google