Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing

要約

大規模言語モデル (LLM) は、段階的な理論的根拠の生成を通じて複雑な推論タスクを処理する際に大きな可能性を示しています。
しかし、最近の研究では、幻覚や推論プロセスの欠陥に関する懸念が生じています。
生成された理論的根拠の信頼性と忠実性を向上させるために、多大な努力が払われています。
計画として推論をモデル化するアプローチもあれば、プロセス監視のための注釈付けに焦点を当てるアプローチもあります。
それにもかかわらず、計画ベースの検索プロセスでは、中間推論状態の頻繁な評価と広範な探索スペースにより、待ち時間が長くなることがよくあります。
さらに、人間による注釈を使用して推論プロセスを監視するにはコストがかかり、LLM トレーニングに合わせて拡張するのが困難です。
これらの問題に対処するために、この論文では、合成されたプロセス報酬に従ってランク付けされた収集された軌跡に対する直接優先最適化(DPO)を通じて計画ベースの推論を学習するフレームワークを提案します。
困難な論理的推論ベンチマークの結果は、学習フレームワークの有効性を示しており、7B モデルが GPT-3.5-Turbo などの強力なモデルを上回ることができることを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated significant potential in handling complex reasoning tasks through step-by-step rationale generation. However, recent studies have raised concerns regarding the hallucination and flaws in their reasoning process. Substantial efforts are being made to improve the reliability and faithfulness of the generated rationales. Some approaches model reasoning as planning, while others focus on annotating for process supervision. Nevertheless, the planning-based search process often results in high latency due to the frequent assessment of intermediate reasoning states and the extensive exploration space. Additionally, supervising the reasoning process with human annotation is costly and challenging to scale for LLM training. To address these issues, in this paper, we propose a framework to learn planning-based reasoning through Direct Preference Optimization (DPO) on collected trajectories, which are ranked according to synthesized process rewards. Our results on challenging logical reasoning benchmarks demonstrate the effectiveness of our learning framework, showing that our 7B model can surpass the strong counterparts like GPT-3.5-Turbo.

arxiv情報

著者 Fangkai Jiao,Chengwei Qin,Zhengyuan Liu,Nancy F. Chen,Shafiq Joty
発行日 2024-04-15 06:36:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク