要約
シンボリックタスク表現は、人間の指示とドメインの知識をエンコードするための強力なツールです。
このような指示は、ロボットをガイドして、多様な目標を達成し、強化学習(RL)を通じて制約を満たします。
ほとんどの既存の方法は、環境状態から記号への固定マッピングに基づいています。
ただし、監視の誤りを避けるために、機器の条件を複数の視点から評価する必要がある検査タスクでは、ロボットは異なる状態から同じシンボルを満たす必要があります。
ロボットが柔軟なシンボルマッピングに応答するのを支援するために、RLポリシー内でシンボルとそのマッピング仕様を個別に表現することを提案します。
このアプローチは、RLポリシーに象徴的な指示とマッピング仕様の組み合わせを学習し、効率的な学習フレームワークを必要とします。
この問題に対処するために、調整可能なマッピング仕様(SIAMS)を使用して、シンボリック命令と呼ばれる柔軟なポリシーを学習するためのアプローチを紹介します。
このホワイトペーパーは、RLに簡単に統合できる正式な言語である線形時間ロジック(LTL)を使用した象徴的な命令を表しています。
私たちの方法では、(1)状態機能の仕様のマッピングの違いを埋め込む仕様認識状態変調と、(2)シンボル番号ベースのタスクカリキュラムを埋め込んだ、(1)指示の多様な完了パターンに対処します。
学習の進歩。
離散および連続的なアクションスペースを使用した3Dシミュレーションでの評価は、この方法がコンテキスト対応マルチタスクRL比較よりも優れていることを示しています。
要約(オリジナル)
Symbolic task representation is a powerful tool for encoding human instructions and domain knowledge. Such instructions guide robots to accomplish diverse objectives and meet constraints through reinforcement learning (RL). Most existing methods are based on fixed mappings from environmental states to symbols. However, in inspection tasks, where equipment conditions must be evaluated from multiple perspectives to avoid errors of oversight, robots must fulfill the same symbol from different states. To help robots respond to flexible symbol mapping, we propose representing symbols and their mapping specifications separately within an RL policy. This approach imposes on RL policy to learn combinations of symbolic instructions and mapping specifications, requiring an efficient learning framework. To cope with this issue, we introduce an approach for learning flexible policies called Symbolic Instructions with Adjustable Mapping Specifications (SIAMS). This paper represents symbolic instructions using linear temporal logic (LTL), a formal language that can be easily integrated into RL. Our method addresses the diversified completion patterns of instructions by (1) a specification-aware state modulation, which embeds differences in mapping specifications in state features, and (2) a symbol-number-based task curriculum, which gradually provides tasks according to the learning’s progress. Evaluations in 3D simulations with discrete and continuous action spaces demonstrate that our method outperforms context-aware multitask RL comparisons.
arxiv情報
著者 | Wataru Hatanaka,Ryota Yamashina,Takamitsu Matsubara |
発行日 | 2025-01-31 02:02:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google