要約
大規模言語モデル (LLM) を使用して、複雑なタスク (一連のアクションや、ツールや外部環境との動的な対話を必要とするタスクなど) に取り組むことが注目すべき傾向です。
この論文では、複雑なタスク解決プロセスをステート マシンとして概念化する、新しい LLM ベースのタスク解決パラダイムである StateFlow を提案します。
StateFlow では、「プロセスグラウンディング」(状態および状態遷移を介した) と「サブタスク解決」(状態内のアクションを介した) を区別し、タスク解決手順の制御と解釈可能性を強化します。
状態は、実行中のプロセスのステータスを表します。
状態間の遷移は、LLM によって行われるヒューリスティック ルールまたは決定によって制御され、動的かつ適応的な進行が可能になります。
状態に入ると、さまざまなプロンプトに従って LLM を呼び出すだけでなく、必要に応じて外部ツールの利用も含む一連のアクションが実行されます。
私たちの結果は、StateFlow が LLM の効率を大幅に向上させることを示しています。
たとえば、StateFlow は、InterCode SQL および ALFWorld ベンチマークにおいて、ReAct と比較して 13% および 28% 高い成功率を達成し、コストはそれぞれ 5 分の 1 および 3 分の 1 です。
また、StateFlow を Reflexion などの反復改良手法と組み合わせて、パフォーマンスをさらに向上できることも示します。
要約(オリジナル)
It is a notable trend to use Large Language Models (LLMs) to tackle complex tasks, e.g., tasks that require a sequence of actions and dynamic interaction with tools and external environments. In this paper, we propose StateFlow, a novel LLM-based task-solving paradigm that conceptualizes complex task-solving processes as state machines. In StateFlow, we distinguish between ‘process grounding’ (via state and state transitions) and ‘sub-task solving’ (through actions within a state), enhancing control and interpretability of the task-solving procedure. A state represents the status of a running process. The transitions between states are controlled by heuristic rules or decisions made by the LLM, allowing for a dynamic and adaptive progression. Upon entering a state, a series of actions is executed, involving not only calling LLMs guided by different prompts, but also the utilization of external tools as needed. Our results show that StateFlow significantly enhances LLMs’ efficiency. For instance, StateFlow achieves 13% and 28% higher success rates compared to ReAct in InterCode SQL and ALFWorld benchmark, with 5x and 3x less cost respectively. We also show that StateFlow can be combined with iterative refining methods like Reflexion to further improve performance.
arxiv情報
著者 | Yiran Wu,Tianwei Yue,Shaokun Zhang,Chi Wang,Qingyun Wu |
発行日 | 2024-08-26 08:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google