要約
マルチタスク学習の成功は、どのタスクがグループ化されるかに大きく依存します。
すべてのタスクまたはタスクのランダムなセットを単純にグループ化すると、マルチタスク モデルのパフォーマンスがシングルタスク モデルよりも低下し、マイナスの転送が発生する可能性があります。
タスクのグループ化を特定し、さまざまなタスク間の関連性を測定するために多くの努力が払われてきましたが、多くの潜在的なタスクの組み合わせの中から最適なタスクのグループ化を特定する指標を定義することは、依然として困難な研究課題です。
我々は、点ごとの V 使用可能情報 (PVI) によって測定されるタスクの難易度に基づいたタスクの関連性の指標を提案します。
PVI は、特定のモデルでデータセットに含まれる有用な情報の量を推定するために最近提案された指標です。
私たちは、統計的に異なる PVI 推定値を持たないタスクは、共同学習プロセスの恩恵を受けるのに十分な類似性があると仮説を立てます。
私たちは包括的な実験を実施して、一般、生物医学、臨床の各領域における 15 個の NLP データセットのタスク グループ化に対するこの指標の実現可能性を評価します。
共同学習者の結果を単一学習者、既存のベースライン手法、および Llama 2 や GPT-4 などの最近の大規模言語モデルと比較します。
結果は、同様の PVI 推定値を持つタスクをグループ化することにより、共同学習者が合計パラメーターを減らして競合する結果をもたらし、ドメイン全体で一貫したパフォーマンスを実現したことを示しています。
要約(オリジナル)
The success of multi-task learning can depend heavily on which tasks are grouped together. Naively grouping all tasks or a random set of tasks can result in negative transfer, with the multi-task models performing worse than single-task models. Though many efforts have been made to identify task groupings and to measure the relatedness among different tasks, it remains a challenging research topic to define a metric to identify the best task grouping out of a pool of many potential task combinations. We propose a metric of task relatedness based on task difficulty measured by pointwise V-usable information (PVI). PVI is a recently proposed metric to estimate how much usable information a dataset contains given a model. We hypothesize that tasks with not statistically different PVI estimates are similar enough to benefit from the joint learning process. We conduct comprehensive experiments to evaluate the feasibility of this metric for task grouping on 15 NLP datasets in the general, biomedical, and clinical domains. We compare the results of the joint learners against single learners, existing baseline methods, and recent large language models, including Llama 2 and GPT-4. The results show that by grouping tasks with similar PVI estimates, the joint learners yielded competitive results with fewer total parameters, with consistent performance across domains.
arxiv情報
著者 | Yingya Li,Timothy Miller,Steven Bethard,Guergana Savova |
発行日 | 2024-10-16 17:49:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google