Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs

要約

大規模言語モデル (LLM) は、コンテキスト内でのさまざまな少数ショット タスクで広範な成功を収めてきましたが、この成功は通常、一貫性ではなく正確さによって評価されます。
私たちは、解決策が複数のサブステップへの回答で構成されるタスクにおいて、自己一貫性が有効な複数ステップの推論の重要な基準であると主張します。
我々は、多段階推論にとって特に重要な 2 つのタイプの自己無矛盾性を提案します。仮説的一貫性 (仮説的な他のコンテキストでその出力がどのようになるかを予測するモデルの能力) と構成的一貫性 (中間段階でのモデルの最終出力の一貫性) です。
サブステップは、それらのステップのモデルの出力に置き換えられます)。
GPT-3/-4 モデルの複数のバリアントが、さまざまなタスクで両方のタイプの一貫性にわたって低い一貫性率を示すことを実証します。

要約(オリジナル)

Large language models (LLMs) have achieved widespread success on a variety of in-context few-shot tasks, but this success is typically evaluated via correctness rather than consistency. We argue that self-consistency is an important criteria for valid multi-step reasoning in tasks where the solution is composed of the answers to multiple sub-steps. We propose two types of self-consistency that are particularly important for multi-step reasoning — hypothetical consistency (a model’s ability to predict what its output would be in a hypothetical other context) and compositional consistency (consistency of a model’s final outputs when intermediate sub-steps are replaced with the model’s outputs for those steps). We demonstrate that multiple variants of the GPT-3/-4 models exhibit poor consistency rates across both types of consistency on a variety of tasks.

arxiv情報

著者 Angelica Chen,Jason Phang,Alicia Parrish,Vishakh Padmakumar,Chen Zhao,Samuel R. Bowman,Kyunghyun Cho
発行日 2023-07-17 19:01:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク