It Takes One to Tango but More Make Trouble? In-Context Training with Different Number of Demonstrations

要約

大規模言語モデル (LLM) は、いくつかの入出力デモンストレーション (デモ) が提供されると、コンテキスト学習 (ICL) によって複雑な推論を実行でき、中間の推論ステップ (「思考の連鎖 (CoT)」) が提供されるとより強力になります。
デモが提供されます。
ICL でマルチデモを使用する必要はありますか?
このホワイト ペーパーでは、~\cite{wei2022chain} のタスクの各テスト クエリに対して少数のデモを使用して ICL を調査します。
驚くべきことに、ランダムに選択されたデモを 1 つだけ使用した場合、大幅な劣化は見られません。
この現象を調査するために、テスト クエリごとに、デモを正しい答えにつながる「正しいデモ」と、間違った答えにつながる「間違ったデモ」に分類します。
私たちの分析は、これらの広く研究されたデータセットに内在する偏りを明らかにしています。ほとんどのデモは大部分のテスト クエリに対して正しく、1 つのランダムなデモを使用することの優れたパフォーマンスを説明しています。
さらに、1 つの正しいデモのみを使用する ICL (CoT の有無にかかわらず) は、ほとんどの以前の研究で採用されたすべてのデモの ICL よりも大幅に優れており、入力クエリの正しいデモを見つける際の LLM の弱点を示しています。
偏ったデータセット。
さらに、マルチデモを使用した ICL の直観に反する動作を観察します。つまり、より正確な (間違った) デモが与えられると、その精度が低下 (改善) します。
これは、ICL がデモ間の干渉とそれらの疑似相関によって容易に見当違いになる可能性があることを意味します。
私たちの分析は、LLM のトレーニング、ICL、およびベンチマークの設計で対処する必要があるいくつかの基本的な課題を浮き彫りにしています。

要約(オリジナル)

Large language models (LLMs) are capable to perform complex reasoning by in-context learning (ICL) when provided with a few input-output demonstrations (demos) and more powerful when intermediate reasoning steps (‘chain of thoughts (CoT)’) of the demos are given. Is it necessary to use multi-demo in ICL? In this paper, we study ICL using fewer demos for each test query on the tasks in~\cite{wei2022chain}. Surprisingly, we do not observe significant degradation when using only one randomly chosen demo. To study this phenomenon, for each test query, we categorize demos into ‘correct demos’ leading to the correct answer, and ‘wrong demos’ resulting in wrong answers. Our analysis reveals an inherent bias in those widely studied datasets: most demos are correct for a majority of test queries, which explains the good performance of using one random demo. Moreover, ICL (with and w/o CoT) using only one correct demo significantly outperforms all-demo ICL adopted by most previous works, indicating the weakness of LLMs in finding correct demo(s) for input queries, which is difficult to evaluate on the biased datasets. Furthermore, we observe a counterintuitive behavior of ICL using multi-demo, i.e., its accuracy degrades(improves) when given more correct(wrong) demos. This implies that ICL can be easily misguided by interference among demos and their spurious correlations. Our analyses highlight several fundamental challenges that need to be addressed in LLMs training, ICL, and benchmark design.

arxiv情報

著者 Jiuhai Chen,LiChang Chen,Tianyi Zhou
発行日 2023-03-14 17:50:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク