Learning to Look: Seeking Information for Decision Making via Policy Factorization

要約

多くのロボット操作タスクを正常に実行するには、アクティブまたはインタラクティブな探索動作が必要です。
このようなタスクは、エージェントがタスクの各段階に必要な情報を能動的に検索する必要がある具体化領域 (たとえば、操作に関連する情報を見つけるためにロボットの頭を動かすなど) や、1 台の偵察ロボットが存在するマルチロボット領域ではどこにでもあります。
他のロボットが情報に基づいた意思決定を行うために必要な情報を検索する可能性があります。
我々は、これらのタスクを新しいタイプの問題、因数分解されたコンテキストマルコフ決定プロセスで特定し、関連するコンテキスト情報を見つけるために環境を探索する情報探索ポリシーと、関連するコンテキスト情報を見つける情報受信ポリシーで構成される二重ポリシーソリューションであるDISaMを提案します。
コンテキストを利用して操作の目的を達成します。
この因数分解により、両方のポリシーを個別にトレーニングすることができ、情報を受信するポリシーを使用して、情報を求めるポリシーをトレーニングするための報酬を提供できます。
テスト時に、デュアル エージェントは、次善のアクションが何かに関して操作ポリシーが持つ不確実性に基づいて、探索と悪用のバランスをとります。
シミュレーションと現実世界の両方で、情報探索動作を必要とする 5 つの操作タスクでデュアル ポリシー ソリューションの機能を実証します。DISaM は既存の手法を大幅に上回ります。
詳細については、https://robin-lab.cs.utexas.edu/learning2look/ をご覧ください。

要約(オリジナル)

Many robot manipulation tasks require active or interactive exploration behavior in order to be performed successfully. Such tasks are ubiquitous in embodied domains, where agents must actively search for the information necessary for each stage of a task, e.g., moving the head of the robot to find information relevant to manipulation, or in multi-robot domains, where one scout robot may search for the information that another robot needs to make informed decisions. We identify these tasks with a new type of problem, factorized Contextual Markov Decision Processes, and propose DISaM, a dual-policy solution composed of an information-seeking policy that explores the environment to find the relevant contextual information and an information-receiving policy that exploits the context to achieve the manipulation goal. This factorization allows us to train both policies separately, using the information-receiving one to provide reward to train the information-seeking policy. At test time, the dual agent balances exploration and exploitation based on the uncertainty the manipulation policy has on what the next best action is. We demonstrate the capabilities of our dual policy solution in five manipulation tasks that require information-seeking behaviors, both in simulation and in the real-world, where DISaM significantly outperforms existing methods. More information at https://robin-lab.cs.utexas.edu/learning2look/.

arxiv情報

著者 Shivin Dass,Jiaheng Hu,Ben Abbatematteo,Peter Stone,Roberto Martín-Martín
発行日 2024-10-24 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク