Control-oriented Clustering of Visual Latent Representation

要約

視覚表現空間のジオメトリ(Visionエンコーダーからアクションデコーダーまでの情報チャネル)の研究を開始します – 動作のクローニングから学んだ画像ベースのコントロールパイプライン。
画像分類(ARXIV:2008.08186)の神経崩壊(NC)の現象に触発され、視覚表現空間におけるクラスタリングの同様の法則の一般的な出現を経験的に実証します。
具体的には、個別の画像ベースのコントロール(例えば、Lunar Lander)では、視覚表現は、自然な離散アクションラベルに従ってクラスターになります。
連続画像ベースのコントロール(例:平面の押し込みと積み重ねをブロックするなど)では、(a)入力または(b)のオブジェクトとターゲットとの相対的なポーズに基づいた「制御指向」クラスに従ってクラスタリングが出現します。
出力での専門家のアクションによって誘導されるオブジェクトの相対ポーズ。
各クラスは、1つの相対ポーズオルサント(レポ)に対応しています。
経験的観察を超えて、限られた専門家デモンストレーションでポリシーをトレーニングする際にテスト時間パフォーマンスを改善するためのアルゴリズムツールとしてクラスタリングの法則を活用できることを示します。
特に、視覚機能の制御指向のクラスタリングを促進するために、正規化としてNCを使用してビジョンエンコーダーを前処理します。
驚くべきことに、アクションデコーダーを使用してエンドツーエンドを獲得すると、このようなNC-Prestrained Visionエンコーダーは、テスト時間のパフォーマンスを10%から35%増加させます。
現実世界の視覚ベースの平面プッシュ実験により、制御指向の視覚表現の前提の驚くべき利点が確認されました。

要約(オリジナル)

We initiate a study of the geometry of the visual representation space — the information channel from the vision encoder to the action decoder — in an image-based control pipeline learned from behavior cloning. Inspired by the phenomenon of neural collapse (NC) in image classification (arXiv:2008.08186), we empirically demonstrate the prevalent emergence of a similar law of clustering in the visual representation space. Specifically, in discrete image-based control (e.g., Lunar Lander), the visual representations cluster according to the natural discrete action labels; in continuous image-based control (e.g., Planar Pushing and Block Stacking), the clustering emerges according to ‘control-oriented’ classes that are based on (a) the relative pose between the object and the target in the input or (b) the relative pose of the object induced by expert actions in the output. Each of the classes corresponds to one relative pose orthant (REPO). Beyond empirical observation, we show such a law of clustering can be leveraged as an algorithmic tool to improve test-time performance when training a policy with limited expert demonstrations. Particularly, we pretrain the vision encoder using NC as a regularization to encourage control-oriented clustering of the visual features. Surprisingly, such an NC-pretrained vision encoder, when finetuned end-to-end with the action decoder, boosts the test-time performance by 10% to 35%. Real-world vision-based planar pushing experiments confirmed the surprising advantage of control-oriented visual representation pretraining.

arxiv情報

著者 Han Qi,Haocheng Yin,Heng Yang
発行日 2025-02-05 22:12:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク