Program Machine Policy: Addressing Long-Horizon Tasks by Integrating Program Synthesis and State Machines

要約

深層強化学習 (ディープ RL) はさまざまな領域で優れていますが、一般化性と解釈性に欠けています。
一方、プログラムによる RL 手法 (Trivedi et al., 2021; Liu et al., 2023) は、環境内で実行できる解釈可能なプログラムを合成するものとして RL タスクを再定式化します。
有望な結果にもかかわらず、これらの方法は短期間のタスクに限定されています。
一方で、ステートマシンを使用して RL ポリシーを表現すると (Inala et al., 2020)、長期的なタスクを帰納的に一般化できます。
ただし、多様で複雑な動作を獲得するためにスケールアップするのは困難です。
この研究では、プログラム マシン ポリシー (POMP) を提案しています。POMP は、プログラムによる RL とステート マシン ポリシーの利点を橋渡しし、複雑な動作の表現と長期タスクへの対処を可能にします。
具体的には、効果的で多様で互換性のあるプログラムのセットを取得できる方法を紹介します。
次に、これらのプログラムをステート マシンのモードとして使用し、モード プログラム間を遷移する遷移関数を学習して、反復的な動作をキャプチャできるようにします。
私たちが提案するフレームワークは、さまざまなタスクにおいてプログラマティック RL およびディープ RL ベースラインを上回り、微調整を行わずにさらに長い期間に帰納的に一般化できる能力を示しています。
アブレーション研究は、一連のプログラムをモードとして取得するための、私たちが提案する検索アルゴリズムの有効性を正当化します。

要約(オリジナル)

Deep reinforcement learning (deep RL) excels in various domains but lacks generalizability and interpretability. On the other hand, programmatic RL methods (Trivedi et al., 2021; Liu et al., 2023) reformulate RL tasks as synthesizing interpretable programs that can be executed in the environments. Despite encouraging results, these methods are limited to short-horizon tasks. On the other hand, representing RL policies using state machines (Inala et al., 2020) can inductively generalize to long-horizon tasks; however, it struggles to scale up to acquire diverse and complex behaviors. This work proposes the Program Machine Policy (POMP), which bridges the advantages of programmatic RL and state machine policies, allowing for the representation of complex behaviors and the address of long-term tasks. Specifically, we introduce a method that can retrieve a set of effective, diverse, and compatible programs. Then, we use these programs as modes of a state machine and learn a transition function to transition among mode programs, allowing for capturing repetitive behaviors. Our proposed framework outperforms programmatic RL and deep RL baselines on various tasks and demonstrates the ability to inductively generalize to even longer horizons without any fine-tuning. Ablation studies justify the effectiveness of our proposed search algorithm for retrieving a set of programs as modes.

arxiv情報

著者 Yu-An Lin,Chen-Tao Lee,Guan-Ting Liu,Pu-Jen Cheng,Shao-Hua Sun
発行日 2024-02-09 02:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.PL, cs.RO パーマリンク