要約
類推推論は、関連する過去の経験から戦略を移すことによって、未知の課題に対処する人間のユニークな能力です。
心理学における重要な発見の1つは、無関係な過去の経験と比較して、関連する経験を思い出すことは、人間が新しいタスクをより適切に処理するのに役立つ可能性があるということです。
偶然にも、NLP コミュニティは最近、コンテキスト内で関連するサンプルを自動生成する方が、手作りのプロンプトよりも大規模言語モデル (LLM) が特定の問題をより適切に解決するのに役立つことを発見しました。
しかし、関連性がそのような機能を引き出す重要な要素であるかどうか、つまり、LLM が無関係なサンプルよりも自己生成した関連サンプルからより多くの利益を得ることができるかどうかはまだ明らかではありません。
この研究では、LLM がさまざまな推論タスクで本当に類推を実行できるかどうかを体系的に調査します。
広範な実験と分析により、自己生成されたランダムなサンプルが、驚くべきことに同等またはそれ以上のパフォーマンスを達成できることを示しました。たとえば、ランダムな生物学的サンプルを使用すると、GSM8K で 4% のパフォーマンスが向上します。
私たちは、自己生成された例の精度が重要な要素であることを発見し、その後、推論コストを大幅に削減した 2 つの改良された方法を設計しました。
全体として、私たちは LLM の類推推論についての理解を深めることを目指しており、この研究が自己生成コンテキストの設計におけるさらなる研究を刺激することを願っています。
要約(オリジナル)
Analogical reasoning is a unique ability of humans to address unfamiliar challenges by transferring strategies from relevant past experiences. One key finding in psychology is that compared with irrelevant past experiences, recalling relevant ones can help humans better handle new tasks. Coincidentally, the NLP community has also recently found that self-generating relevant examples in the context can help large language models (LLMs) better solve a given problem than hand-crafted prompts. However, it is yet not clear whether relevance is the key factor eliciting such capability, i.e., can LLMs benefit more from self-generated relevant examples than irrelevant ones? In this work, we systematically explore whether LLMs can truly perform analogical reasoning on a diverse set of reasoning tasks. With extensive experiments and analysis, we show that self-generated random examples can surprisingly achieve comparable or even better performance, e.g., 4% performance boost on GSM8K with random biological examples. We find that the accuracy of self-generated examples is the key factor and subsequently design two improved methods with significantly reduced inference costs. Overall, we aim to advance a deeper understanding of LLM analogical reasoning and hope this work stimulates further research in the design of self-generated contexts.
arxiv情報
著者 | Chengwei Qin,Wenhan Xia,Tan Wang,Fangkai Jiao,Yuchen Hu,Bosheng Ding,Ruirui Chen,Shafiq Joty |
発行日 | 2024-04-19 09:15:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google