Control-oriented Clustering of Visual Latent Representation

要約

私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおける視覚表現空間 (ビジョン エンコーダーからアクション デコーダーまでの情報チャネル) の幾何学構造の研究を開始します。
画像分類におけるニューラル崩壊 (NC) 現象に触発されて、同様のクラスタリングの法則が視覚表現空間にも現れるかどうかを調査します。
画像ベースの制御は、明示的に定義されたクラスを持たない回帰タスクであるため、パズルの中心的なピースは、そのような法則が存在する場合、どの暗黙のクラスに従って視覚特徴がクラスター化されるかを決定することにあります。
画像ベースの平面プッシュに焦点を当て、制御タスクにおける視覚表現の最も重要な役割は、アクション デコーダーに目標を伝えることであると仮定します。
次に、エキスパート デモンストレーションのトレーニング サンプルを、(a) 入力におけるオブジェクトとターゲットの間の相対姿勢、または (b) 出力におけるエキスパート アクションによって引き起こされるオブジェクトの相対姿勢に基づいて、8 つの「制御指向」クラスに分類します。
ここで、1 つのクラスは 1 つの相対姿勢オルサント (REPO) に対応します。
アーキテクチャの 4 つの異なるインスタンス化にわたって、8 つの REPO に従って、視覚表現空間における制御指向のクラスタリングの一般的な出現を報告します。
経験的な観察を超えて、限られた専門家のデモンストレーションでポリシーをトレーニングする際に、テスト時のパフォーマンスを向上させるアルゴリズム ツールとしてこのようなクラスタリングの法則を活用できることを示します。
特に、視覚特徴の制御指向のクラスタリングを促進するために、正則化として NC を使用してビジョン エンコーダを事前トレーニングします。
驚くべきことに、このような NC で事前トレーニングされたビジョン エンコーダは、アクション デコーダとエンドツーエンドで微調整されると、低データ領域でのテスト時間のパフォーマンスが 10% ~ 35% 向上します。
現実世界のビジョンベースの平面プッシュ実験により、制御指向の視覚表現の事前トレーニングの驚くべき利点が確認されました。

要約(オリジナル)

We initiate a study of the geometry of the visual representation space — the information channel from the vision encoder to the action decoder — in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification, we investigate whether a similar law of clustering emerges in the visual representation space. Since image-based control is a regression task without explicitly defined classes, the central piece of the puzzle lies in determining according to what implicit classes the visual features cluster, if such a law exists. Focusing on image-based planar pushing, we posit the most important role of the visual representation in a control task is to convey a goal to the action decoder. We then classify training samples of expert demonstrations into eight ‘control-oriented’ classes based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output, where one class corresponds to one relative pose orthant (REPO). Across four different instantiations of architecture, we report the prevalent emergence of control-oriented clustering in the visual representation space according to the eight REPOs. Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35% in the low-data regime. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.

arxiv情報

著者 Han Qi,Haocheng Yin,Heng Yang
発行日 2024-10-07 14:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク