要約
現在の大規模な言語モデルは、数回の学習で段階的に推論する必要がある複雑なタスクでもかなりうまく実行できます。
これらのモデルは、事前トレーニング中に学習した推論スキルを適用し、トレーニング コンテキストの外で推論しているのでしょうか、それとも単にトレーニング コーパスをより細かい粒度で記憶し、コンテキストをよりよく理解することを学習しているのでしょうか?
これらの可能性を区別するために、解決するのに推論スキルが必要な複雑なタスクについて、事前トレーニングされたモデルと微調整されたモデルを比較する言語モデルの推論能力を評価するためのベンチマークおよび分析スイートである ALERT を紹介します。
ALERT は、20 を超えるデータセットにまたがり、10 の異なる推論スキルをカバーする、きめ細かい推論スキルに関する言語モデルを評価するためのテストベッドを提供します。
ALERT を活用して、微調整の役割をさらに調査します。
広範な実証分析により、言語モデルはトレーニング前の状態と比較して、微調整段階でテキスト含意、アブダクティブ推論、類推などの推論スキルをより多く学習することがわかりました。
また、言語モデルを微調整すると、プロンプト テンプレートに過剰適合する傾向があり、モデルの堅牢性が損なわれ、一般化の問題が発生することもわかりました。
要約(オリジナル)
Current large language models can perform reasonably well on complex tasks that require step-by-step reasoning with few-shot learning. Are these models applying reasoning skills they have learnt during pre-training and reason outside of their training context, or are they simply memorizing their training corpus at finer granularity and have learnt to better understand their context? To tease apart these possibilities, we introduce ALERT, a benchmark and suite of analyses for assessing language models’ reasoning ability comparing pre-trained and finetuned models on complex tasks that require reasoning skills to solve. ALERT provides a test bed to asses any language model on fine-grained reasoning skills, which spans over 20 datasets and covers 10 different reasoning skills. We leverage ALERT to further investigate the role of finetuning. With extensive empirical analysis we find that language models learn more reasoning skills such as textual entailment, abductive reasoning, and analogical reasoning during finetuning stage compared to pretraining state. We also find that when language models are finetuned they tend to overfit to the prompt template, which hurts the robustness of models causing generalization problems.
arxiv情報
| 著者 | Ping Yu,Tianlu Wang,Olga Golovneva,Badr Alkhamissy,Gargi Ghosh,Mona Diab,Asli Celikyilmaz | 
| 発行日 | 2023-07-07 17:43:12+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
