Learning Top-k Subtask Planning Tree based on Discriminative Representation Pre-training for Decision Making

要約

現実世界の複雑なタスクの多くは、より小さく管理しやすい部分に分割できます。これらの単純化された部分から抽出された事前知識に基づいて計画を立てることは、人間が正確な意思決定を行うために非常に重要です。
ただし、このプロセスを複製することは AI エージェントにとって依然として課題であり、必然的に 2 つの疑問が生じます。事前分布から識別的な知識表現を抽出するにはどうすればよいでしょうか?
複雑な問題を分解するための合理的な計画を立てるにはどうすればよいでしょうか?
単一のエンコーダ構造を採用する既存の表現学習方法のほとんどは脆弱であり、複雑で多様なダイナミクスに敏感です。
この問題に対処するために、単純なサブタスクの十分なデータからタスクに不可欠な表現を学習するために、複数のエンコーダーと個別の予測子体制を導入します。
複数のエンコーダは混乱することなく適切なタスク関連のダイナミクスを抽出でき、共有予測子はタスクの特性を識別できます。
また、アテンション メカニズムを使用して、上位 k 個のサブタスク計画ツリーを生成します。これは、サブタスクの実行計画をカスタマイズして、目に見えないタスクに関する複雑な決定を導きます。
このプロセスでは、計画ツリーの深さと幅を柔軟に調整することで、将来を見据えたグローバル性を実現します。
いくつかの基本的な単純なタスクと組み合わせが豊富な合成タスクで構成される挑戦的なプラットフォームでの実証結果は、一部の競合ベースラインを常に上回り、私たちの設計の利点を実証しています。

要約(オリジナル)

Many complicated real-world tasks can be broken down into smaller, more manageable parts, and planning with prior knowledge extracted from these simplified pieces is crucial for humans to make accurate decisions. However, replicating this process remains a challenge for AI agents and naturally raises two questions: How to extract discriminative knowledge representation from priors? How to develop a rational plan to decompose complex problems? Most existing representation learning methods employing a single encoder structure are fragile and sensitive to complex and diverse dynamics. To address this issue, we introduce a multiple-encoder and individual-predictor regime to learn task-essential representations from sufficient data for simple subtasks. Multiple encoders can extract adequate task-relevant dynamics without confusion, and the shared predictor can discriminate the task characteristics. We also use the attention mechanism to generate a top-k subtask planning tree, which customizes subtask execution plans in guiding complex decisions on unseen tasks. This process enables forward-looking and globality by flexibly adjusting the depth and width of the planning tree. Empirical results on a challenging platform composed of some basic simple tasks and combinatorially rich synthetic tasks consistently outperform some competitive baselines and demonstrate the benefits of our design.

arxiv情報

著者 Jingqing Ruan,Kaishen Wang,Qingyang Zhang,Dengpeng Xing,Bo Xu
発行日 2024-05-20 10:02:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク