Domain Adaptation of Visual Policies with a Single Demonstration

要約

現実世界のアプリケーションにロボット タスク用の機械学習アルゴリズムを導入するには、トレーニング環境と導入環境の間のドメイン ギャップを克服するという重要な課題が存在します。
これは、高次元画像を入力として利用する視覚運動ポリシーの場合、特にそれらの画像がシミュレーションによって生成される場合に特に困難です。
この問題に取り組む一般的な方法は、ドメインのランダム化を使用することです。これは、テスト時間の分布をカバーするようにトレーニング分布の範囲を広げることを目的としています。
ただし、このアプローチは、ドメインのランダム化がテスト時間分布の実際のシフトを含む場合にのみ有効です。
私たちは別のアプローチを採用し、単一のデモンストレーション (プロンプト) を利用して、テスト対象環境に適応するポリシーを学習します。
私たちが提案するフレームワークである PromptAdapt は、Transformer アーキテクチャの逐次データをモデル化する機能を活用して、デモンストレーション条件付きのビジュアル ポリシーを学習し、トレーニングとは異なるターゲット ドメインへのコンテキスト内での適応を可能にします。
シミュレーションと現実世界の設定の両方での実験では、PromptAdapt が強力なドメイン適応ポリシーであり、照明、色、テクスチャ、カメラのポーズの変化など、さまざまなドメインの変化の下でベースライン手法を大幅に上回るパフォーマンスを示すことがわかりました。
ビデオと詳細情報は、プロジェクトのウェブページ: https://sites.google.com/view/promptadapt でご覧いただけます。

要約(オリジナル)

Deploying machine learning algorithms for robot tasks in real-world applications presents a core challenge: overcoming the domain gap between the training and the deployment environment. This is particularly difficult for visuomotor policies that utilize high-dimensional images as input, particularly when those images are generated via simulation. A common method to tackle this issue is through domain randomization, which aims to broaden the span of the training distribution to cover the test-time distribution. However, this approach is only effective when the domain randomization encompasses the actual shifts in the test-time distribution. We take a different approach, where we make use of a single demonstration (a prompt) to learn policy that adapts to the testing target environment. Our proposed framework, PromptAdapt, leverages the Transformer architecture’s capacity to model sequential data to learn demonstration-conditioned visual policies, allowing for in-context adaptation to a target domain that is distinct from training. Our experiments in both simulation and real-world settings show that PromptAdapt is a strong domain-adapting policy that outperforms baseline methods by a large margin under a range of domain shifts, including variations in lighting, color, texture, and camera pose. Videos and more information can be viewed at project webpage: https://sites.google.com/view/promptadapt.

arxiv情報

著者 Weiyao Wang,Gregory D. Hager
発行日 2024-07-23 20:17:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク