要約
大規模な言語モデルは、さまざまな自然言語処理タスクで印象的なパフォーマンスを達成しています。
ただし、これまでのところ、入力コンテキスト内のすべての情報がタスクの解決に関連するベンチマークで主に評価されてきました。
この作業では、大規模な言語モデルの気を散らす可能性、つまり、モデルの問題解決の精度が無関係なコンテキストによってどのように影響を受けるかを調査します。
特に、問題の説明に無関係な情報を含む算術推論データセットである、無関係なコンテキストを使用したGrade-School Math (GSM-IC) を紹介します。
このベンチマークを使用して、大規模な言語モデルの最先端のプロンプト手法の注意散漫性を測定し、無関係な情報が含まれているとモデルのパフォーマンスが劇的に低下することを発見しました.
また、自己一貫性を備えたデコードや、言語モデルに無関係な情報を無視するように指示する命令をプロンプトに追加するなど、この欠陥を軽減するためのいくつかのアプローチを特定します。
要約(オリジナル)
Large language models have achieved impressive performance on various natural language processing tasks. However, so far they have been evaluated primarily on benchmarks where all information in the input context is relevant for solving the task. In this work, we investigate the distractibility of large language models, i.e., how the model problem-solving accuracy can be influenced by irrelevant context. In particular, we introduce Grade-School Math with Irrelevant Context (GSM-IC), an arithmetic reasoning dataset with irrelevant information in the problem description. We use this benchmark to measure the distractibility of cutting-edge prompting techniques for large language models, and find that the model performance is dramatically decreased when irrelevant information is included. We also identify several approaches for mitigating this deficiency, such as decoding with self-consistency and adding to the prompt an instruction that tells the language model to ignore the irrelevant information.
arxiv情報
著者 | Freda Shi,Xinyun Chen,Kanishka Misra,Nathan Scales,David Dohan,Ed Chi,Nathanael Schärli,Denny Zhou |
発行日 | 2023-02-13 20:08:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google