O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models

要約

大規模言語モデル (LLM) の最近の進歩により、逐次的な意思決定の問題の解決において有望なパフォーマンスが示されています。
プロンプトで提供される少数の例を模倣する (つまり、コンテキスト内学習) ことにより、LLM エージェントは外部環境と対話し、追加のトレーニングなしで特定のタスクを完了できます。
ただし、このような少数のショットの例では、複雑で長期的なタスクに対する高品質のソリューションを生成するには不十分であることが多く、コンテキストの長さが限られているため、大規模なデモンストレーションを行うことはできません。
この目的を達成するために、LLM エージェントのインコンテキスト学習パフォーマンスを促進するために、大規模なオフライン データ (人間の対話のログなど) を利用するオフライン学習フレームワークを提案します。
私たちは、テキストベースのアプローチとコードベースのアプローチの両方を使用して、LLM を利用したポリシーを正式に定義します。
次に、オフライン データ駆動型の検出と蒸留 (O3D) フレームワークを導入して、微調整せずに LLM を活用したポリシーを改善します。
O3D は、再利用可能なスキルを自動的に検出し、オフライン インタラクション データに基づいて複数のタスクにわたって一般化可能な知識を抽出し、下流のタスクを解決する機能を向上させます。
2 つのインタラクティブな意思決定ベンチマーク (ALFWorld と WebShop) による実証結果は、O3D がオフライン検出および蒸留プロセスを通じて LLM の意思決定能力を著しく強化し、テキストベースのポリシーと
コードベースのポリシー。

要約(オリジナル)

Recent advancements in large language models (LLMs) have exhibited promising performance in solving sequential decision-making problems. By imitating few-shot examples provided in the prompts (i.e., in-context learning), an LLM agent can interact with an external environment and complete given tasks without additional training. However, such few-shot examples are often insufficient to generate high-quality solutions for complex and long-horizon tasks, while the limited context length cannot consume larger-scale demonstrations. To this end, we propose an offline learning framework that utilizes offline data at scale (e.g, logs of human interactions) to facilitate the in-context learning performance of LLM agents. We formally define LLM-powered policies with both text-based approaches and code-based approaches. We then introduce an Offline Data-driven Discovery and Distillation (O3D) framework to improve LLM-powered policies without finetuning. O3D automatically discovers reusable skills and distills generalizable knowledge across multiple tasks based on offline interaction data, advancing the capability of solving downstream tasks. Empirical results under two interactive decision-making benchmarks (ALFWorld and WebShop) demonstrate that O3D can notably enhance the decision-making capabilities of LLMs through the offline discovery and distillation process, and consistently outperform baselines across various LLMs with both text-based-policy and code-based-policy.

arxiv情報

著者 Yuchen Xiao,Yanchao Sun,Mengda Xu,Udari Madhushani,Jared Vann,Deepeka Garg,Sumitra Ganesh
発行日 2024-01-12 16:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク