AQA-Bench: An Interactive Benchmark for Evaluating LLMs’ Sequential Reasoning Ability

要約

このペーパーでは、深さ優先検索 (DFS) などのアルゴリズム コンテキストにおける大規模言語モデル (LLM) の逐次推論機能を評価するための新しいベンチマークである AQA-Bench を紹介します。
私たちの評価ベンチマークの主な特徴は、対話型の評価プロトコルにあります。たとえば、DFS では、各ノードの接続されたエッジの可用性は、モデルがそのノードを通過するかどうかに左右されるため、訪問したノードを効果的に記憶し、戦略を立てる LLM の機能が必要になります。
その後の動き。
二分探索、深さ優先探索、幅優先探索の 3 つの異なるアルゴリズムを備えた AQA-Bench を包括的に構築し、12 の異なる LLM の逐次推論能力を評価します。
私たちの調査により、いくつかの興味深い発見が明らかになりました。 (1) GPT-4 や Gemini などのクローズドソース モデルは、一般に強力な逐次推論能力を示し、オープンソース LLM を大幅に上回ります。
(2) インタラクティブな例を単純に提供すると、意図せずに少数ショットのパフォーマンスを損なう可能性があります。
(3) 最適なポリシーに従った非常に限られた数の先行ステップにより、小規模モデルのパフォーマンスを大幅に向上させることができます。
(4) パフォーマンスとモデル サイズの間のスケーリング相関は必ずしも重要ではなく、場合によっては逆の傾向を示すこともあります。
私たちは、私たちの研究が、逐次推論におけるLLMの能力の理解と強化の促進に関する将来の研究の触媒となることを願っています。
コードは https://github.com/UCSC-VLAA/AQA-Bench で入手できます。

要約(オリジナル)

This paper introduces AQA-Bench, a novel benchmark to assess the sequential reasoning capabilities of large language models (LLMs) in algorithmic contexts, such as depth-first search (DFS). The key feature of our evaluation benchmark lies in its interactive evaluation protocol — for example, in DFS, the availability of each node’s connected edge is contingent upon the model’s traversal to that node, thereby necessitating the LLM’s ability to effectively remember visited nodes and strategize subsequent moves. We comprehensively build AQA-Bench with three different algorithms, namely binary search, depth-first search, and breadth-first search, and to evaluate the sequential reasoning ability of 12 different LLMs. Our investigations reveal several interesting findings: (1) Closed-source models like GPT-4 and Gemini generally show strong sequential reasoning ability, significantly outperforming open-source LLMs. (2) Naively providing interactive examples may inadvertently hurt few-shot performance. (3) A very limited number of predecessor steps following the optimal policy can substantially boost small models’ performance. (4) The scaling correlation between performance and model size is not always significant, sometimes even showcasing an inverse trend. We hope our study can catalyze future work on advancing the understanding and enhancement of LLMs’ capabilities in sequential reasoning. The code is available at https://github.com/UCSC-VLAA/AQA-Bench.

arxiv情報

著者 Siwei Yang,Bingchen Zhao,Cihang Xie
発行日 2024-02-14 18:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク