Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs

要約

大規模言語モデル (LLM) は、コンテキスト内でのさまざまな少数ショット タスクで広範な成功を収めてきましたが、この成功は通常、一貫性ではなく正確さによって評価されます。
私たちは、自己無矛盾性が有効な複数ステップの推論にとって重要な基準であると主張し、複数ステップの論理にとって特に重要である 2 つのタイプの自己無矛盾性、つまり仮説の一貫性 (モデルがその出力がどのようになるかを予測する能力) を提案します。
仮想的な他のコンテキストでは) と構成の一貫性 (中間ステップがそのステップのモデルの出力で置き換えられた場合でも、構成タスクのモデルの出力の一貫性)。
4 つのサイズの GPT-3 モデルが、4 つの異なるタスク (Wikipedia、DailyDialog、算術、GeoQuery) の両方の種類の一貫性にわたって低い一貫性率を示していることを示します。

要約(オリジナル)

Large language models (LLMs) have achieved widespread success on a variety of in-context few-shot tasks, but this success is typically evaluated via correctness rather than consistency. We argue that self-consistency is an important criteria for valid multi-step reasoning and propose two types of self-consistency that are particularly important for multi-step logic — hypothetical consistency (the ability for a model to predict what its output would be in a hypothetical other context) and compositional consistency (consistency of a model’s outputs for a compositional task even when an intermediate step is replaced with the model’s output for that step). We demonstrate that four sizes of the GPT-3 model exhibit poor consistency rates across both types of consistency on four different tasks (Wikipedia, DailyDialog, arithmetic, and GeoQuery).

arxiv情報

著者 Angelica Chen,Jason Phang,Alicia Parrish,Vishakh Padmakumar,Chen Zhao,Samuel R. Bowman,Kyunghyun Cho
発行日 2023-05-23 17:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク