Test-time Adaptation with Slot-Centric Models


最近のテスト時適応方法は、補助的な自己教師あり損失を使用してネットワーク パラメーターを各テスト例に個別に適応させ、画像分類タスクのトレーニング分布外での一般化に向けて有望な結果を示しています。
これら 2 つの作業を利用して、テスト時に再構成またはクロスビュー合成の目標に基づく勾配降下法を通じてシーンごとに適応される、半教師ありスロット中心のシーン分解モデルである Slot-TTA を提案します。
複数の入力モダリティ、画像、または 3D 点群にわたって Slot-TTA を評価し、最先端の教師ありフィードフォワード検出器および代替のテスト時間適応方法に対して、大幅な分布外パフォーマンスの向上を示します。


Current visual detectors, though impressive within their training distribution, often fail to parse out-of-distribution scenes into their constituent entities. Recent test-time adaptation methods use auxiliary self-supervised losses to adapt the network parameters to each test example independently and have shown promising results towards generalization outside the training distribution for the task of image classification. In our work, we find evidence that these losses are insufficient for the task of scene decomposition, without also considering architectural inductive biases. Recent slot-centric generative models attempt to decompose scenes into entities in a self-supervised manner by reconstructing pixels. Drawing upon these two lines of work, we propose Slot-TTA, a semi-supervised slot-centric scene decomposition model that at test time is adapted per scene through gradient descent on reconstruction or cross-view synthesis objectives. We evaluate Slot-TTA across multiple input modalities, images or 3D point clouds, and show substantial out-of-distribution performance improvements against state-of-the-art supervised feed-forward detectors, and alternative test-time adaptation methods.


著者 Mihir Prabhudesai,Anirudh Goyal,Sujoy Paul,Sjoerd van Steenkiste,Mehdi S. M. Sajjadi,Gaurav Aggarwal,Thomas Kipf,Deepak Pathak,Katerina Fragkiadaki
発行日 2023-06-27 19:41:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク