要約
マルチモーダル事前トレーニングは、自律ロボットにおける表現学習の次の 3 つの目標に対する効果的な戦略として浮上しています。1) ローカルおよびグローバルの両方のタスク進行情報を抽出する。
2) 視覚的表現の時間的一貫性を強制する。
3) 言語の基礎を軌道レベルで捉える。
既存の手法のほとんどは、個別の目的を介してこれらにアプローチしており、次善の解決策に到達することがよくあります。
この論文では、画像シーケンスから意味のあるタスク進行情報を同時に抽出し、それらを言語指示とシームレスに調整できる、普遍的な統一目標を提案します。
私たちは、視覚的な軌跡が不一致のペアよりも本質的に対応する言語命令とよりよく一致する暗黙の好みを介して、人気のあるブラッドリー・テリーモデルが、適切な報酬の再パラメータ化を通じて表現学習に変換できることを発見しました。
結果として得られたフレームワークである DecisionNCE は、InfoNCE スタイルの目標を反映していますが、意思決定タスク向けに独特に調整されており、暗黙的な時間対比学習によって時間的一貫性が強化され、ローカルおよびグローバルの両方のタスク進行特徴をエレガントに抽出する具体化された表現学習フレームワークを提供します。
マルチモーダルジョイントエンコーディングを介して軌道レベルの命令のグラウンディングを保証します。
シミュレートされたロボットと実際のロボットの両方での評価は、DecisionNCE がさまざまな下流のポリシー学習タスクを効果的に促進し、統一された表現と報酬学習のための多用途のソリューションを提供することを示しています。
プロジェクトページ: https://2toinf.github.io/DecisionNCE/
要約(オリジナル)
Multimodal pretraining has emerged as an effective strategy for the trinity of goals of representation learning in autonomous robots: 1) extracting both local and global task progression information; 2) enforcing temporal consistency of visual representation; 3) capturing trajectory-level language grounding. Most existing methods approach these via separate objectives, which often reach sub-optimal solutions. In this paper, we propose a universal unified objective that can simultaneously extract meaningful task progression information from image sequences and seamlessly align them with language instructions. We discover that via implicit preferences, where a visual trajectory inherently aligns better with its corresponding language instruction than mismatched pairs, the popular Bradley-Terry model can transform into representation learning through proper reward reparameterizations. The resulted framework, DecisionNCE, mirrors an InfoNCE-style objective but is distinctively tailored for decision-making tasks, providing an embodied representation learning framework that elegantly extracts both local and global task progression features, with temporal consistency enforced through implicit time contrastive learning, while ensuring trajectory-level instruction grounding via multimodal joint encoding. Evaluation on both simulated and real robots demonstrates that DecisionNCE effectively facilitates diverse downstream policy learning tasks, offering a versatile solution for unified representation and reward learning. Project Page: https://2toinf.github.io/DecisionNCE/
arxiv情報
著者 | Jianxiong Li,Jinliang Zheng,Yinan Zheng,Liyuan Mao,Xiao Hu,Sijie Cheng,Haoyi Niu,Jihao Liu,Yu Liu,Jingjing Liu,Ya-Qin Zhang,Xianyuan Zhan |
発行日 | 2024-02-28 07:58:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google