Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training

要約

大規模言語モデル (LLM) は通常、推論と解読能力を高めるために、思考連鎖 (CoT) などのプロンプトを伴うサンプリングまたはビーム検索を使用します。
Tree-of-Thought (ToT) や Reasoning via Planning (RAP) などの最近の研究は、ツリー検索アルゴリズムを利用して複数ステップの推論をガイドすることにより、LLM の推論能力を強化することを目的としています。
これらの手法は主に、推論中の LLM の推論能力に焦点を当てており、価値関数として LLM をアクティブにする人間が設計したプロンプトに大きく依存しているため、一般的な適用性や拡張性が欠けています。
これらの制限に対処するために、LLM 用の AlphaZero に似たツリー検索フレームワーク (TS-LLM と呼ばれる) を提示し、学習値関数を使用したツリー検索が LLM のデコード能力をどのようにガイドできるかを体系的に示します。
TS-LLM は 2 つの重要な点で優れています: (1) 学習値関数を活用することで、私たちのアプローチは通常、推論を超えたさまざまなタスク (RLHF アライメントなど) や、高度で大規模な処理を要求することなく、あらゆるサイズの LLM に適用できます。
モデル。
(2) 推論とトレーニングの両方で LLM のデコードをガイドできます。
推論、計画、および RLHF アライメント タスクにわたる経験的評価により、深さ 64 のツリーでも TS-LLM の有効性が検証されます。

要約(オリジナル)

Large language models (LLMs) typically employ sampling or beam search, accompanied by prompts such as Chain-of-Thought (CoT), to boost reasoning and decoding ability. Recent work like Tree-of-Thought (ToT) and Reasoning via Planning (RAP) aim to augment the reasoning capabilities of LLMs by utilizing tree-search algorithms to guide multi-step reasoning. These methods mainly focus on LLMs’ reasoning ability during inference and heavily rely on human-designed prompts to activate LLM as a value function, which lacks general applicability and scalability. To address these limitations, we present an AlphaZero-like tree-search framework for LLMs (termed TS-LLM), systematically illustrating how tree-search with a learned value function can guide LLMs’ decoding ability. TS-LLM distinguishes itself in two key ways: (1) Leveraging a learned value function, our approach can be generally applied to different tasks beyond reasoning (such as RLHF alignment), and LLMs of any size, without prompting advanced, large-scale models. (2) It can guide LLM’s decoding during both inference and training. Empirical evaluations across reasoning, planning, and RLHF alignment tasks validate the effectiveness of TS-LLM, even on trees with a depth of 64.

arxiv情報

著者 Xidong Feng,Ziyu Wan,Muning Wen,Ying Wen,Weinan Zhang,Jun Wang
発行日 2023-09-29 12:20:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク