要約
推論に取り組むために大規模な言語モデル(LLM)を利用することで、注目が高まっています。
コンテキスト内の多くの施設を特徴とする複雑な論理的問題で満足のいく結果を達成することは依然として非常に困難なままです。
特に、LLMSの推論能力は、障害と注意散漫に脆いです。
この作業では、最初に情報の流れの観点からメカニズムを調べ、LLMSが推論タスクにおいて無秩序で無関係なコンテンツを扱う際に人間のような認知バイアスに似た困難に直面することを明らかにします。
しかし、LLMとは対照的に、人間は最も関連性の高い情報を蒸留し、彼らの思考を体系的に整理する傾向があり、質問に応答する際に彼らの支援を支援するため、人間は人間のパフォーマンスを大幅に低下させることはありません。
COPは、指定されたステートメントを慎重に分析して、最も適切な情報を特定しながら、冗長性を効率的に排除します。
次に、モデルの推論プロセスに適応する、より組織化されたフォームでLLMSを促します。
簡潔で組織化されたコンテキストを知覚することにより、LLMSの推論能力をより良く引き出すことができます。
いくつかの一般的な論理ベンチマーク(ProofWriter、Prontoqa、Prontoqa-Oood、およびFolio)と数学ベンチマーク(DI-GSM)に関する広範な実験結果は、COPが以前の最先端の方法を大幅に上回ることを示しています。
要約(オリジナル)
Exploiting large language models (LLMs) to tackle reasoning has garnered growing attention. It still remains highly challenging to achieve satisfactory results in complex logical problems, characterized by plenty of premises within the context and requiring multi-hop reasoning. In particular, the reasoning capabilities of LLMs are brittle to disorder and distractibility. In this work, we first examine the mechanism from the perspective of information flow and reveal that LLMs confront difficulties akin to human-like cognitive biases when dealing with disordered and irrelevant content in reasoning tasks. However, in contrast to LLMs, disordered and irrelevant content does not significantly decrease human performance, as humans have a propensity to distill the most relevant information and systematically organize their thoughts, aiding them in responding to questions.Stem from that, we further propose a novel reasoning approach named Concise and Organized Perception (COP). COP carefully analyzes the given statements to identify the most pertinent information while eliminating redundancy efficiently. It then prompts the LLMs in a more organized form that adapts to the model’s inference process. By perceiving concise and organized context, the reasoning abilities of LLMs can be better elicited. Extensive experimental results on several popular logical benchmarks (ProofWriter, PrOntoQA, PrOntoQA-OOD, and FOLIO) and mathematical benchmark (DI-GSM) show that COP significantly outperforms previous state-of-the-art methods.
arxiv情報
著者 | Junjie Liu,Shaotian Yan,Chen Shen,Zhengdong Xiao,Liang Xie,Wenxiao Wang,Jieping Ye |
発行日 | 2025-03-14 09:33:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google