Control-oriented Clustering of Visual Latent Representation


私たちは、動作のクローン作成から学習した画像ベースの制御パイプラインにおける視覚表現空間 (ビジョン エンコーダーからアクション デコーダーまでの情報チャネル) の幾何学構造の研究を開始します。
画像分類におけるニューラル崩壊 (NC) 現象 (arXiv:2008.08186) に触発されて、我々は、視覚表現空間における同様のクラスタリングの法則の一般的な出現を経験的に実証します。
具体的には、離散画像ベースの制御 (例: Lunar Lander) では、視覚的表現は自然な離散アクション ラベルに従ってクラスター化されます。
連続的な画像ベースの制御 (平面プッシュやブロック スタッキングなど) では、(a) 入力内のオブジェクトとターゲットの間の相対姿勢、または (b) に基づく「制御指向」クラスに従ってクラスタリングが現れます。
各クラスは 1 つの相対姿勢オルタント (REPO) に対応します。
経験的な観察を超えて、限られた専門家のデモンストレーションでポリシーをトレーニングする際に、テスト時のパフォーマンスを向上させるアルゴリズム ツールとしてこのようなクラスタリングの法則を活用できることを示します。
特に、視覚特徴の制御指向のクラスタリングを促進するために、正則化として NC を使用してビジョン エンコーダを事前トレーニングします。
驚くべきことに、このような NC で事前トレーニングされたビジョン エンコーダーは、アクション デコーダーとエンドツーエンドで微調整されると、テスト時のパフォーマンスが 10% ~ 35% 向上します。


We initiate a study of the geometry of the visual representation space — the information channel from the vision encoder to the action decoder — in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification (arXiv:2008.08186), we empirically demonstrate the prevalent emergence of a similar law of clustering in the visual representation space. Specifically, in discrete image-based control (e.g., Lunar Lander), the visual representations cluster according to the natural discrete action labels; in continuous image-based control (e.g., Planar Pushing and Block Stacking), the clustering emerges according to ‘control-oriented’ classes that are based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output. Each of the classes corresponds to one relative pose orthant (REPO). Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35%. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.


著者 Han Qi,Haocheng Yin,Heng Yang
発行日 2024-11-28 01:38:14+00:00
