Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines

要約

深層強化学習はさまざまな領域で優れていますが、汎用性と相互運用性に欠けています。
プログラムによる RL 手法 (Trivedi et al., 2021; Liu et al., 2023) は、RL タスクの解決を、環境内で実行できる解釈可能なプログラムの合成として再定式化します。
有望な結果にもかかわらず、これらの方法は短期間のタスクに限定されています。
一方で、ステートマシンを使用して RL ポリシーを表現すると (Inala et al., 2020)、長期的なタスクを帰納的に一般化できます。
ただし、多様で複雑な動作を獲得するためにスケールアップするのは困難です。
この研究では、プログラム マシン ポリシー (POMP) を提案しています。POMP は、プログラムによる RL とステート マシン ポリシーの利点を橋渡しし、複雑な動作の表現と長期タスクへの対処を可能にします。
具体的には、効果的で多様な互換性のあるプログラムのセットを取得できる方法を紹介します。
次に、これらのプログラムをステート マシンのモードとして使用し、モード プログラム間を遷移する遷移関数を学習して、長期にわたる反復的な動作をキャプチャできるようにします。
私たちが提案するフレームワークは、さまざまなタスクにおいてプログラマティック RL およびディープ RL ベースラインを上回り、帰納的に微調整することなくさらに長い期間に一般化できる能力を示しています。
アブレーション研究は、一連のプログラムをモードとして取得するための、私たちが提案する検索アルゴリズムの有効性を正当化します。

要約(オリジナル)

Deep reinforcement learning excels in various domains but lacks generalizability and interoperability. Programmatic RL methods (Trivedi et al., 2021; Liu et al., 2023) reformulate solving RL tasks as synthesizing interpretable programs that can be executed in the environments. Despite encouraging results, these methods are limited to short-horizon tasks. On the other hand, representing RL policies using state machines (Inala et al., 2020) can inductively generalize to long-horizon tasks; however, it struggles to scale up to acquire diverse and complex behaviors. This work proposes Program Machine Policies (POMPs), which bridge the advantages of programmatic RL and state machine policies, allowing for the representation of complex behaviors and the address of long-term tasks. Specifically, we introduce a method that can retrieve a set of effective, diverse, compatible programs. Then, we use these programs as modes of a state machine and learn a transition function to transition among mode programs, allowing for capturing long-horizon repetitive behaviors. Our proposed framework outperforms programmatic RL and deep RL baselines on various tasks and demonstrates the ability to generalize to even longer horizons without any fine-tuning inductively. Ablation studies justify the effectiveness of our proposed search algorithm for retrieving a set of programs as modes.

arxiv情報

著者 Yu-An Lin,Chen-Tao Lee,Guan-Ting Liu,Pu-Jen Cheng,Shao-Hua Sun
発行日 2023-11-27 16:06:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL, cs.RO パーマリンク