要約
大規模な言語モデル(LLM)は、幅広いタスクでのパフォーマンスを急速に改善しましたが、依然として推論のタスクに不足していることがよくあります。
LLMが多様な現実世界のタスクに統合されるようになるにつれて、推論能力を向上させることは、微妙な複雑な問題における有効性にとって重要です。
Wang et al。の自己整合性のフレームワークは、多数決を取る前に複数の合理的根拠をサンプリングすることで、さまざまな閉鎖回答の推論タスクでモデルのパフォーマンスが確実に改善されることを明らかにしています。
このフレームワークに基づく標準的な方法は、これらの理論的根拠の最終決定を集約しますが、段階的な推論パスで詳述されているセマンティック情報を利用していません。
私たちの研究では、意味的な自己整合性を導入し、多数決を取る前に最終的な決定に加えて、これらの理論的根拠の推論パスの両方を組み込み、分析することにより、このアプローチを強化します。
これらの方法は、推論パスの信頼性を改善するだけでなく、複雑な推論タスクに対してより堅牢なパフォーマンスを引き起こします。
要約(オリジナル)
While large language models (LLMs) have rapidly improved their performance on a broad number of tasks, they still often fall short on reasoning tasks. As LLMs become more integrated in diverse real-world tasks, advancing their reasoning capabilities is crucial to their effectiveness in nuanced, complex problems. Wang et al.’s self-consistency framework reveals that sampling multiple rationales before taking a majority vote reliably improves model performance across various closed-answer reasoning tasks. Standard methods based on this framework aggregate the final decisions of these rationales but fail to utilize the semantic information detailed in the step-by-step reasoning paths. Our work introduces semantic self-consistency, enhancing this approach by incorporating and analyzing both the reasoning paths of these rationales in addition to their final decisions before taking a majority vote. These methods not only improve the reliability of reasoning paths but also cause more robust performance on complex reasoning tasks.
arxiv情報
著者 | Tim Knappe,Ryan Li,Ayush Chauhan,Kaylee Chhua,Kevin Zhu,Sean O’Brien |
発行日 | 2025-01-28 11:42:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google