Tell, Don’t Show!: Language Guidance Eases Transfer Across Domains in Images and Videos

要約

LaGTran は、すぐに利用できる、または簡単に取得できるテキスト記述を利用して、ドメイン シフトを伴うラベル付きソースからラベルなしターゲット データへの識別知識の堅牢な転送をガイドする新しいフレームワークです。
この問題に対処するために教師なし適応方法が確立されていますが、ピクセル空間内での排他的な操作により、困難なドメイン シフトの処理には限界があります。
意味的に豊かなテキストモダリティはより有利な転送特性を持つという観察に動機付けられ、ソースでトレーニングされたテキスト分類子を使用してターゲットテキストの説明に関する予測を生成し、これらの予測を対応する画像の監視として利用する転送メカニズムを考案しました。
言語ガイダンスに基づいた私たちのアプローチは驚くほど簡単でシンプルですが、GeoNet や DomainNet などの困難なデータセットに対するこれまでのすべてのアプローチを大幅に上回り、その極めて有効性が実証されています。
画像を超えて研究範囲をさらに広げるために、ビデオでのエゴ-エクソ転送を研究するための新しいベンチマークを導入し、言語支援 LaGTran がこの非常に困難で簡単ではない転送設定で大幅な向上をもたらすことを発見しました。
コード、モデル、提案されたデータセットは、https://tarun005.github.io/lagtran/ で公開されています。

要約(オリジナル)

We introduce LaGTran, a novel framework that utilizes readily available or easily acquired text descriptions to guide robust transfer of discriminative knowledge from labeled source to unlabeled target data with domain shifts. While unsupervised adaptation methods have been established to address this problem, they show limitations in handling challenging domain shifts due to their exclusive operation within the pixel-space. Motivated by our observation that semantically richer text modality has more favorable transfer properties, we devise a transfer mechanism to use a source-trained text-classifier to generate predictions on the target text descriptions, and utilize these predictions as supervision for the corresponding images. Our approach driven by language guidance is surprisingly easy and simple, yet significantly outperforms all prior approaches on challenging datasets like GeoNet and DomainNet, validating its extreme effectiveness. To further extend the scope of our study beyond images, we introduce a new benchmark to study ego-exo transfer in videos and find that our language-aided LaGTran yields significant gains in this highly challenging and non-trivial transfer setting. Code, models, and proposed datasets are publicly available at https://tarun005.github.io/lagtran/.

arxiv情報

著者 Tarun Kalluri,Bodhisattwa Prasad Majumder,Manmohan Chandraker
発行日 2024-03-08 18:58:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク