要約
視覚的なコンテキスト学習(VICL)は、コンピュータービジョンの新しいパラダイムとして、モデルがほんの一握りのプロンプトと例を使用して、さまざまなタスクに迅速に適応することができます。
効果的ですが、既存のVICLパラダイムは、分布シフト下での一般化が不十分です。
この作業では、テスト時間の視覚的なコンテキスト内チューニング(VICT)を提案します。これは、単一のテストサンプルでVICLモデルをその場で適応できる方法です。
具体的には、タスクプロンプトとテストサンプルの間の役割を反転し、サイクルの一貫性の損失を使用して、元のタスクプロンプト出力を再構築します。
私たちの重要な洞察は、元のタスクプロンプトを正常に回復できる場合、モデルは新しいテスト分布を認識する必要があるということです。
高レベルの視覚的理解から低レベルの画像処理まで、15の一般的な腐敗を伴う6つの代表的なビジョンタスクに関する広範な実験は、VICLの一般化可能性を新しいドメインに改善できることを示しています。
さらに、テスト時に目に見えないタスクにVictを適用する可能性を示しています。
コード:https://github.com/jiahao000/vict。
要約(オリジナル)
Visual in-context learning (VICL), as a new paradigm in computer vision, allows the model to rapidly adapt to various tasks with only a handful of prompts and examples. While effective, the existing VICL paradigm exhibits poor generalizability under distribution shifts. In this work, we propose test-time Visual In-Context Tuning (VICT), a method that can adapt VICL models on the fly with a single test sample. Specifically, we flip the role between the task prompts and the test sample and use a cycle consistency loss to reconstruct the original task prompt output. Our key insight is that a model should be aware of a new test distribution if it can successfully recover the original task prompts. Extensive experiments on six representative vision tasks ranging from high-level visual understanding to low-level image processing, with 15 common corruptions, demonstrate that our VICT can improve the generalizability of VICL to unseen new domains. In addition, we show the potential of applying VICT for unseen tasks at test time. Code: https://github.com/Jiahao000/VICT.
arxiv情報
著者 | Jiahao Xie,Alessio Tonioni,Nathalie Rauschmayr,Federico Tombari,Bernt Schiele |
発行日 | 2025-03-27 17:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google