Test-Time Certifiable Self-Supervision to Bridge the Sim2Real Gap in Event-Based Satellite Pose Estimation

要約

ディープラーニングは、ビジョンベースの衛星姿勢推定において重要な役割を果たします。
ただし、宇宙環境からの実データが不足しているため、ディープ モデルは合成データを使用してトレーニングする必要があり、Sim2Real ドメイン ギャップの問題が生じます。
Sim2Real ギャップの主な原因は、テスト中に遭遇した新しい照明条件です。
イベント センサーは、視覚ベースの姿勢推定において照明の変化に対してある程度の堅牢性を提供することが示されています。
ただし、強い指向性光による困難な照明条件は、ノイズの多い/偽のイベントやオブジェクト上の不均一なイベント密度など、市販の既製イベント センサーの出力に望ましくない影響を引き起こす可能性があります。
このような効果はソフトウェアでシミュレートするのが簡単ではないため、イベント ドメインで Sim2Real のギャップが生じます。
イベントベースの衛星姿勢推定における Sim2Real のギャップを埋めるために、この論文では、認証モジュールを使用したテスト時の自己監視スキームを提案しています。
自己監視は、予測された衛星姿勢の密な点群をイベント データと位置合わせして、不正確に推定された姿勢の修正を試みる最適化ルーチンによって有効になります。
認証者は修正された姿勢の検証を試み、認証されたテスト時入力のみが暗黙的な微分を介して逆伝播され、予測ランドマークが改良されるため、姿勢推定が改善され、Sim2Real のギャップが縮まります。
結果は、私たちの方法が確立されたテスト時間適応スキームよりも優れていることを示しています。

要約(オリジナル)

Deep learning plays a critical role in vision-based satellite pose estimation. However, the scarcity of real data from the space environment means that deep models need to be trained using synthetic data, which raises the Sim2Real domain gap problem. A major cause of the Sim2Real gap are novel lighting conditions encountered during test time. Event sensors have been shown to provide some robustness against lighting variations in vision-based pose estimation. However, challenging lighting conditions due to strong directional light can still cause undesirable effects in the output of commercial off-the-shelf event sensors, such as noisy/spurious events and inhomogeneous event densities on the object. Such effects are non-trivial to simulate in software, thus leading to Sim2Real gap in the event domain. To close the Sim2Real gap in event-based satellite pose estimation, the paper proposes a test-time self-supervision scheme with a certifier module. Self-supervision is enabled by an optimisation routine that aligns a dense point cloud of the predicted satellite pose with the event data to attempt to rectify the inaccurately estimated pose. The certifier attempts to verify the corrected pose, and only certified test-time inputs are backpropagated via implicit differentiation to refine the predicted landmarks, thus improving the pose estimates and closing the Sim2Real gap. Results show that the our method outperforms established test-time adaptation schemes.

arxiv情報

著者 Mohsi Jawaid,Rajat Talak,Yasir Latif,Luca Carlone,Tat-Jun Chin
発行日 2024-09-10 06:17:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク