要約
大規模言語モデル(LLM)は、様々なコンテクスト内数発タスクにおいて広く成功を収めているが、この成功は通常、一貫性よりも正しさによって評価される。我々は、解が複数のサブステップに対する解で構成されるタスクにおいて、自己矛盾が有効なマルチステップ推論の重要な基準であると主張する。多段階推論において特に重要な自己無撞着性には、仮説的無撞着性(モデルが、仮想的な他のコンテキストにおいて、その出力がどうなるかを予測する能力)と、構成的無撞着性(中間的なサブステップを、それらのステップに対するモデルの出力に置き換えたときの、モデルの最終的な出力の無撞着性)の2種類がある。我々は、GPT-3/-4モデルの複数の変種が、様々なタスクにおいて、両方のタイプの一貫性において低い一貫性を示すことを示す。
要約(オリジナル)
Large language models (LLMs) have achieved widespread success on a variety of in-context few-shot tasks, but this success is typically evaluated via correctness rather than consistency. We argue that self-consistency is an important criteria for valid multi-step reasoning in tasks where the solution is composed of the answers to multiple sub-steps. We propose two types of self-consistency that are particularly important for multi-step reasoning — hypothetical consistency (a model’s ability to predict what its output would be in a hypothetical other context) and compositional consistency (consistency of a model’s final outputs when intermediate sub-steps are replaced with the model’s outputs for those steps). We demonstrate that multiple variants of the GPT-3/-4 models exhibit poor consistency rates across both types of consistency on a variety of tasks.
arxiv情報
著者 | Angelica Chen,Jason Phang,Alicia Parrish,Vishakh Padmakumar,Chen Zhao,Samuel R. Bowman,Kyunghyun Cho |
発行日 | 2024-02-02 18:37:07+00:00 |
arxivサイト | arxiv_id(pdf) |