Can We Rely on LLM Agents to Draft Long-Horizon Plans? Let’s Take TravelPlanner as an Example

要約

大規模言語モデル (LLM) は、その有望な汎用性と創発的な機能により、自律エージェントを汎用人工知能 (AGI) に近づけています。
しかし、特に要求の厳しい現実世界の計画タスクにおいて、LLM ベースのエージェントがどのように動作するか、失敗する可能性がある理由、およびそれらを改善する方法についての研究は不足しています。
このペーパーでは、ギャップを埋める取り組みとして、エージェントが正確な計画を生成するために複数の制約を満たす必要がある現実的なベンチマークである TravelPlanner を使用した研究を紹介します。
私たちはこのベンチマークを活用して、次の 4 つの主要な調査質問に対処します。(1) LLM エージェントは、推論と計画に関して長くてノイズの多いコンテキストに対して十分に堅牢ですか?
(2) コンテキストが長いシナリオでは、少数ショット プロンプトが LLM エージェントのパフォーマンスに悪影響を与える可能性がありますか?
(3) 計画を改善するために改良に頼ることはできますか、(4) 正と負の両方のフィードバックを使用して LLM を微調整することで、さらなる改善につながることができますか?
私たちの包括的な実験は、第一に、LLM は広範な参考情報と少数のショットの例を処理できるにもかかわらず、長い文脈の重要な部分に注意を向けることができないことが多いことを示しています。
第二に、長い計画を分析するのに依然として苦労しており、改良のための正確なフィードバックを提供できません。
3 番目に、正と負の両方のフィードバックを活用するフィードバック認識微調整 (FAFT) を提案します。これにより、教師あり微調整 (SFT) よりも大幅なメリットが得られます。
私たちの調査結果は、現実世界の計画アプリケーションに関連するさまざまな側面についてコミュニティに深い洞察を提供します。

要約(オリジナル)

Large language models (LLMs) have brought autonomous agents closer to artificial general intelligence (AGI) due to their promising generalization and emergent capabilities. There is, however, a lack of studies on how LLM-based agents behave, why they could potentially fail, and how to improve them, particularly in demanding real-world planning tasks. In this paper, as an effort to fill the gap, we present our study using a realistic benchmark, TravelPlanner, where an agent must meet multiple constraints to generate accurate plans. We leverage this benchmark to address four key research questions: (1) are LLM agents robust enough to lengthy and noisy contexts when it comes to reasoning and planning? (2) can few-shot prompting adversely impact the performance of LLM agents in scenarios with long context? (3) can we rely on refinement to improve plans, and (4) can fine-tuning LLMs with both positive and negative feedback lead to further improvement? Our comprehensive experiments indicate that, firstly, LLMs often fail to attend to crucial parts of a long context, despite their ability to handle extensive reference information and few-shot examples; secondly, they still struggle with analyzing the long plans and cannot provide accurate feedback for refinement; thirdly, we propose Feedback-Aware Fine-Tuning (FAFT), which leverages both positive and negative feedback, resulting in substantial gains over Supervised Fine-Tuning (SFT). Our findings offer in-depth insights to the community on various aspects related to real-world planning applications.

arxiv情報

著者 Yanan Chen,Ali Pesaranghader,Tanmana Sadhu,Dong Hoon Yi
発行日 2024-08-12 17:39:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク