要約
事前トレーニング済み言語モデル (PLM) に基づく検索方法は、統計モデルや初期のニューラル ランキング モデルと比較して、大幅な有効性の向上が実証されています。
ただし、PLM ベースのランカーを微調整するには、大量の注釈付きトレーニング データが必要です。
データに注釈を付けるには多大な手作業が必要となるため、特にドメイン固有のタスクではコストがかかります。
このペーパーでは、限られたトレーニング データと予算の下で PLM ベースのランカーを微調整する方法を調査します。
ランカーを最初から微調整するシナリオと、一般データですでに微調整されたランカーから開始してターゲット データセットで微調整を続けるドメイン適応の 2 つのシナリオを調査します。
ランダムに選択されたトレーニング データのさまざまなサブセットを微調整すると、有効性に大きなばらつきがあることが観察されます。
これは、ランカーに最もプラスの影響を与えるトレーニング データのサブセットを積極的に選択することで、有効性の向上を達成できることを示唆しています。
こうすることで、少ないアノテーション予算で効果的な PLM ランカーを微調整することが可能になります。
これを調査するために、既存のアクティブ ラーニング (AL) 戦略を PLM ランカーの微調整タスクに適応させ、アノテーションと計算コストも考慮してその有効性を調査します。
私たちの広範な分析により、AL 戦略は、有効性の点でトレーニング サブセットのランダムな選択よりも大幅に優れているわけではないことが示されています。
さらに、AL 戦略によってもたらされる利益は、より多くの評価を犠牲にして得られ (したがって、アノテーション コストが高くなります)、固定のアノテーション コストを前提として有効性を比較した場合、AL 戦略はランダム選択よりもパフォーマンスが劣ることがわかりました。
私たちの結果は、低いアノテーションコストで高い効果を提供するトレーニングデータの「最適な」サブセットは存在するが、PLM ランカーに適用されている現在の主流の AL 戦略ではそれらを識別できないことを強調しています。
要約(オリジナル)
Search methods based on Pretrained Language Models (PLM) have demonstrated great effectiveness gains compared to statistical and early neural ranking models. However, fine-tuning PLM-based rankers requires a great amount of annotated training data. Annotating data involves a large manual effort and thus is expensive, especially in domain specific tasks. In this paper we investigate fine-tuning PLM-based rankers under limited training data and budget. We investigate two scenarios: fine-tuning a ranker from scratch, and domain adaptation starting with a ranker already fine-tuned on general data, and continuing fine-tuning on a target dataset. We observe a great variability in effectiveness when fine-tuning on different randomly selected subsets of training data. This suggests that it is possible to achieve effectiveness gains by actively selecting a subset of the training data that has the most positive effect on the rankers. This way, it would be possible to fine-tune effective PLM rankers at a reduced annotation budget. To investigate this, we adapt existing Active Learning (AL) strategies to the task of fine-tuning PLM rankers and investigate their effectiveness, also considering annotation and computational costs. Our extensive analysis shows that AL strategies do not significantly outperform random selection of training subsets in terms of effectiveness. We further find that gains provided by AL strategies come at the expense of more assessments (thus higher annotation costs) and AL strategies underperform random selection when comparing effectiveness given a fixed annotation cost. Our results highlight that “optimal” subsets of training data that provide high effectiveness at low annotation cost do exist, but current mainstream AL strategies applied to PLM rankers are not capable of identifying them.
arxiv情報
著者 | Sophia Althammer,Guido Zuccon,Sebastian Hofstätter,Suzan Verberne,Allan Hanbury |
発行日 | 2023-09-12 11:17:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google