要約
大規模な言語モデル(LLMS)は、十分なデータがオンラインで利用可能であり、トレーニング前に使用されている場合、計画タスク(数学の証明、基本旅行計画など)の解決など、プロンプトのテクニックとシステム設計を通じて印象的なタスク解決機能を実証しています。
ただし、以前のデータが限られている(世界、高度な旅行計画などをブロックする)タスクを計画するには、GPTやGeminiなどの独自モデルを含むLLMのパフォーマンスが貧弱です。
このペーパーでは、LLMSの計画能力に対する微調整の影響を調査し、LLMがかなりの(数万の特定の例)微調整を通じて計画において強力なパフォーマンスを達成できることを明らかにしました。
しかし、このプロセスには、計画の問題の変動ごとに高い経済、時間、および計算コストが発生します。
これに対処するために、クラスタリングベースの最大ダイバーシティサンプリング(CMDS)を提案します。これは、サンプル効率とモデルの一般化機能を高めるために、多様で代表的なデータを選択します。
広範な評価は、CMDと言語埋め込みを組み合わせたベースライン法であるCMDS-Lがランダムサンプリングを上回ることを示しています。
さらに、新しいアルゴリズムであるCMDS-Gを導入します。これは、グラフ表現を埋め込みスペースに計画するタスクインスタンスをコードします。
経験的結果は、CMDS-Gが、さまざまなスケールと複数のベンチマークドメインにわたってベースラインメソッドを常に上回ることを示しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated impressive task-solving capabilities through prompting techniques and system designs, including solving planning tasks (e.g., math proofs, basic travel planning) when sufficient data is available online and used during pre-training. However, for planning tasks with limited prior data (e.g., blocks world, advanced travel planning), the performance of LLMs, including proprietary models like GPT and Gemini, is poor. This paper investigates the impact of fine-tuning on the planning capabilities of LLMs, revealing that LLMs can achieve strong performance in planning through substantial (tens of thousands of specific examples) fine-tuning. Yet, this process incurs high economic, time, and computational costs for each planning problem variation. To address this, we propose Clustering-Based Maximum Diversity Sampling (CMDS), which selects diverse and representative data to enhance sample efficiency and the model’s generalization capability. Extensive evaluations demonstrate that CMDS-l, a baseline method combining CMDS with language embeddings, outperforms random sampling. Furthermore, we introduce a novel algorithm, CMDS-g, which encodes planning task instances with their graph representations into the embedding space. Empirical results show that CMDS-g consistently outperforms baseline methods across various scales and multiple benchmark domains.
arxiv情報
著者 | Wenjun Li,Changyu Chen,Pradeep Varakantham |
発行日 | 2025-04-24 15:15:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google