Latent Theory of Mind: A Decentralized Diffusion Architecture for Cooperative Manipulation

要約

共同ロボット操作のための分散型拡散ポリシーアーキテクチャである潜在的な心の理論(Latenttom)を提示します。
私たちのポリシーにより、独自の認識と計算を備えた複数のマニピュレーターが、明示的なコミュニケーションの有無にかかわらず、共通のタスク目標に向けて互いに協力することができます。
私たちの重要な革新は、各エージェントがロボットに固有のエゴ埋め込みと、異なるセンサーのストリームとポーズにもかかわらず、両方のロボットに共通するように訓練されたコンセンサスを埋め込むという2つの潜在表現を維持できるようにすることにあります。
さらに、各ロボットはデコーダーを訓練して、潜在空間での心の理論に似たコンセンサスの埋め込みから他のロボットのエゴの埋め込みを推測させます。
トレーニングは中央で行われ、すべてのポリシーのコンセンサスエンコーダーは、トポロジカルマニホールド上のデータをクラスタリングするための数学理論であるSheaf理論に触発された損失によって監督されています。
具体的には、コンセンサスの埋め込みの束整合的なアライメントを実施するために、1次の大量のコホモロジー損失を導入します。
コンセンサス埋め込みの表現力を維持するために、心の理論と方向性コンセンサスメカニズムに基づいて構造的制約をさらに提案します。
実行を完全に配布することができ、ポリシー間の明示的な通信は必要ありません。
その場合、情報は、他のロボットのアクションとシーンへの影響を観察することにより、各ロボットのセンサーストリームを通じて暗黙的に交換されます。
あるいは、実行は直接通信を活用して、各推論ステップ中に埋め込みが1回共有され、Sheaf Laplacianを使用して埋め込みが共有されるロボットのコンセンサス埋め込みを共有することができます。
ハードウェアの実験では、Latenttomは素朴な分散型拡散ベースラインよりも優れており、バイマニュアル操作のための最先端の集中拡散ポリシーと同等のパフォーマンスを示しています。
プロジェクトWebサイト:https://stanfordmsl.github.io/latenttom/。

要約(オリジナル)

We present Latent Theory of Mind (LatentToM), a decentralized diffusion policy architecture for collaborative robot manipulation. Our policy allows multiple manipulators with their own perception and computation to collaborate with each other towards a common task goal with or without explicit communication. Our key innovation lies in allowing each agent to maintain two latent representations: an ego embedding specific to the robot, and a consensus embedding trained to be common to both robots, despite their different sensor streams and poses. We further let each robot train a decoder to infer the other robot’s ego embedding from their consensus embedding, akin to theory of mind in latent space. Training occurs centrally, with all the policies’ consensus encoders supervised by a loss inspired by sheaf theory, a mathematical theory for clustering data on a topological manifold. Specifically, we introduce a first-order cohomology loss to enforce sheaf-consistent alignment of the consensus embeddings. To preserve the expressiveness of the consensus embedding, we further propose structural constraints based on theory of mind and a directional consensus mechanism. Execution can be fully distributed, requiring no explicit communication between policies. In which case, the information is exchanged implicitly through each robot’s sensor stream by observing the actions of the other robots and their effects on the scene. Alternatively, execution can leverage direct communication to share the robots’ consensus embeddings, where the embeddings are shared once during each inference step and are aligned using the sheaf Laplacian. In our hardware experiments, LatentToM outperforms a naive decentralized diffusion baseline, and shows comparable performance with a state-of-the-art centralized diffusion policy for bi-manual manipulation. Project website: https://stanfordmsl.github.io/LatentToM/.

arxiv情報

著者 Chengyang He,Gadiel Sznaier Camps,Xu Liu,Mac Schwager,Guillaume Sartoretti
発行日 2025-05-14 05:03:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク