要約
大規模言語モデル (LLM) はさまざまなタスクにおいて優れた機能を備えていますが、複雑な推論と計画を伴うシナリオでは依然として困難を抱えています。
最近の研究では、高度なプロンプト技術と、LLM の推論能力を強化するための高品質データによる微調整の必要性が提案されています。
ただし、これらのアプローチはデータの可用性と品質によって本質的に制約を受けます。
これを考慮すると、LLM が自分たちの成果を磨き、自己評価した報酬から学ぶことを可能にする戦略を採用する、自己修正と自己学習が実行可能な解決策として浮上します。
しかし、特に複雑な推論や計画タスクにおいて、LLM の応答を自己調整する有効性は依然として疑わしい。
この論文では、LLM の自己改善のための AlphaLLM を紹介します。これは、モンテカルロ木探索 (MCTS) と LLM を統合して自己改善ループを確立し、それによって追加のアノテーションなしで LLM の機能を強化します。
AlphaGo の成功からインスピレーションを得て、AlphaLLM は、データ不足、言語タスクの広大な検索空間、言語タスクにおけるフィードバックの主観的な性質など、自己改善のために MCTS と LLM を組み合わせる特有の課題に対処します。
AlphaLLM は、プロンプト合成コンポーネント、言語タスクに合わせて調整された効率的な MCTS アプローチ、および正確なフィードバックのための 3 つの批評モデルで構成されています。
数学的推論タスクにおける実験結果は、AlphaLLM が追加のアノテーションなしで LLM のパフォーマンスを大幅に向上させることを実証し、LLM の自己改善の可能性を示しています。
要約(オリジナル)
Despite the impressive capabilities of Large Language Models (LLMs) on various tasks, they still struggle with scenarios that involves complex reasoning and planning. Recent work proposed advanced prompting techniques and the necessity of fine-tuning with high-quality data to augment LLMs’ reasoning abilities. However, these approaches are inherently constrained by data availability and quality. In light of this, self-correction and self-learning emerge as viable solutions, employing strategies that allow LLMs to refine their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs in self-refining its response, particularly in complex reasoning and planning task, remains dubious. In this paper, we introduce AlphaLLM for the self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with LLMs to establish a self-improving loop, thereby enhancing the capabilities of LLMs without additional annotations. Drawing inspiration from the success of AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM for self-improvement, including data scarcity, the vastness search spaces of language tasks, and the subjective nature of feedback in language tasks. AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach tailored for language tasks, and a trio of critic models for precise feedback. Our experimental results in mathematical reasoning tasks demonstrate that AlphaLLM significantly enhances the performance of LLMs without additional annotations, showing the potential for self-improvement in LLMs.
arxiv情報
著者 | Ye Tian,Baolin Peng,Linfeng Song,Lifeng Jin,Dian Yu,Haitao Mi,Dong Yu |
発行日 | 2024-12-10 18:19:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google