Mind the instructions: a holistic evaluation of consistency and interactions in prompt-based learning

要約

事前トレーニングされた言語モデルをタスクに適応させる最適な方法を見つけることは、現在の NLP における大きな課題です。
前世代のタスク調整モデル (TT) と同様に、インコンテキスト学習 (ICL) を介してタスクに適応されたモデルは、一部のセットアップでは堅牢ですが、他のセットアップではそうではありません。
ここでは、どの設計選択が LLM 予測の不安定性や不一致の原因となるのかについて、詳細な分析を示します。
まず、入力分布とラベルの間の偽の相関 (TT モデルの既知の問題) が、プロンプト モデルにとっては軽微な問題にすぎないことを示します。
次に、プロンプト設定での予測に影響を与えることがわかっているさまざまな要因の体系的かつ全体的な評価に取り組みます。
私たちは、さまざまなスケールのバニラ LLM と命令調整 (IT) LLM の両方で、さまざまな要因の考えられるすべての組み合わせをテストし、その結果を統計的に分析して、どの要因が最も影響力があり、対話的で、安定しているかを示します。
私たちの結果は、ほとんどの環境において、どの要因が予防措置なしで使用でき、どの要因を回避するか慎重に扱う必要があるかを示しています。

要約(オリジナル)

Finding the best way of adapting pre-trained language models to a task is a big challenge in current NLP. Just like the previous generation of task-tuned models (TT), models that are adapted to tasks via in-context-learning (ICL) are robust in some setups but not in others. Here, we present a detailed analysis of which design choices cause instabilities and inconsistencies in LLM predictions. First, we show how spurious correlations between input distributions and labels — a known issue in TT models — form only a minor problem for prompted models. Then, we engage in a systematic, holistic evaluation of different factors that have been found to influence predictions in a prompting setup. We test all possible combinations of a range of factors on both vanilla and instruction-tuned (IT) LLMs of different scale and statistically analyse the results to show which factors are the most influential, interactive or stable. Our results show which factors can be used without precautions and which should be avoided or handled with care in most settings.

arxiv情報

著者 Lucas Weber,Elia Bruni,Dieuwke Hupkes
発行日 2023-10-20 13:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク