GCNT: Graph-Based Transformer Policies for Morphology-Agnostic Reinforcement Learning

要約

異なる形態を持つロボットのユニバーサルコントローラーをトレーニングすることは、ロボットシステムの堅牢性と回復力を大幅に向上させることができるため、有望な研究傾向です。
ただし、多様な形態は、状態空間とアクション空間のさまざまな側面を生み出すことができ、従来のポリシーネットワークに準拠することを困難にします。
既存の方法は、ロボット構成をモジュール化することによりこの問題に対処しますが、普遍的なコントローラーをトレーニングするために重要であることが証明されている全体的な形態情報を適切に抽出および利用しません。
この目的のために、改良されたグラフ畳み込みネットワーク(GCN)とトランスに基づいた形態と存在するポリシーネットワークであるGCNTを提案します。
GCNとトランスが任意の数のモジュールを処理して、多様な形態との互換性を実現できるという事実を活用しています。
私たちの重要な洞察は、GCNがロボットの形態情報を効率的に抽出できることですが、トランスはロボットの各ノードがこの情報を直接通信できるようにすることで完全に利用されることを保証します。
実験結果は、トレーニング中に見られないロボット形態へのゼロショット一般化を含む、さまざまな構成のロボットの回復力のある移動挙動を生成できることを示しています。
特に、GCNTは2つの標準ベンチマークで8つのタスクで最高のパフォーマンスを達成しました。

要約(オリジナル)

Training a universal controller for robots with different morphologies is a promising research trend, since it can significantly enhance the robustness and resilience of the robotic system. However, diverse morphologies can yield different dimensions of state space and action space, making it difficult to comply with traditional policy networks. Existing methods address this issue by modularizing the robot configuration, while do not adequately extract and utilize the overall morphological information, which has been proven crucial for training a universal controller. To this end, we propose GCNT, a morphology-agnostic policy network based on improved Graph Convolutional Network (GCN) and Transformer. It exploits the fact that GCN and Transformer can handle arbitrary number of modules to achieve compatibility with diverse morphologies. Our key insight is that the GCN is able to efficiently extract morphology information of robots, while Transformer ensures that it is fully utilized by allowing each node of the robot to communicate this information directly. Experimental results show that our method can generate resilient locomotion behaviors for robots with different configurations, including zero-shot generalization to robot morphologies not seen during training. In particular, GCNT achieved the best performance on 8 tasks in the 2 standard benchmarks.

arxiv情報

著者 Yingbo Luo,Meibao Yao,Xueming Xiao
発行日 2025-05-21 07:40:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク