SALAD: Source-free Active Label-Agnostic Domain Adaptation for Classification, Segmentation and Detection

要約

事前にトレーニングされた「ソース」ドメインネットワークを「ターゲット」ドメインに適応させるという挑戦的なビジョンタスクのための新しい方法、SALADを提示します。「ターゲット」ドメインでの注釈の予算は少なく、ラベルスペースをシフトします。

さらに、このタスクは、プライバシーの懸念などにより、ソースデータを適応に利用できないことを前提としています。
このようなシステムは、(i)注釈用のターゲットドメインから固定数のサンプルを選択することと、(ii)事前にトレーニングされたネットワークからターゲットドメインに知識を転送することの2つのタスクを共同で最適化する必要があると仮定します。
これを行うために、SALADは、新しいガイド付き注意転送ネットワーク(GATN)とアクティブラーニング機能であるHALで構成されています。
GATNは、事前にトレーニングされたネットワークからターゲットネットワークへの機能の蒸留を可能にし、転送可能性と不確実性の基準を使用してHALによってマイニングされたターゲットサンプルで補完されます。
SALADには3つの重要な利点があります。(i)タスクに依存せず、分類、セグメンテーション、検出などのさまざまな視覚的タスクに適用できます。
(ii)事前にトレーニングされたソースネットワークからターゲットドメインへの出力ラベルスペースのシフトを処理できます。
(iii)適応のためにソースデータにアクセスする必要はありません。
私たちは、3つの視覚的タスクにわたって広範な実験を行います。
数字の分類(MNIST、SVHN、VISDA)、合成(GTA5)から実数(CityScapes)の画像セグメンテーション、およびドキュメントレイアウトの検出(PubLayNetからDSSE)。
ソースフリーアプローチであるSALADにより、適応のために大量の注釈付きソースデータへのアクセスを想定する以前の適応方法に比べて、(データセットとタスク全体で)0.5%〜31.3%の改善が見られることを示します。

要約(オリジナル)

We present a novel method, SALAD, for the challenging vision task of adapting a pre-trained ‘source’ domain network to a ‘target’ domain, with a small budget for annotation in the ‘target’ domain and a shift in the label space. Further, the task assumes that the source data is not available for adaptation, due to privacy concerns or otherwise. We postulate that such systems need to jointly optimize the dual task of (i) selecting fixed number of samples from the target domain for annotation and (ii) transfer of knowledge from the pre-trained network to the target domain. To do this, SALAD consists of a novel Guided Attention Transfer Network (GATN) and an active learning function, HAL. The GATN enables feature distillation from pre-trained network to the target network, complemented with the target samples mined by HAL using transfer-ability and uncertainty criteria. SALAD has three key benefits: (i) it is task-agnostic, and can be applied across various visual tasks such as classification, segmentation and detection; (ii) it can handle shifts in output label space from the pre-trained source network to the target domain; (iii) it does not require access to source data for adaptation. We conduct extensive experiments across 3 visual tasks, viz. digits classification (MNIST, SVHN, VISDA), synthetic (GTA5) to real (CityScapes) image segmentation, and document layout detection (PubLayNet to DSSE). We show that our source-free approach, SALAD, results in an improvement of 0.5%-31.3%(across datasets and tasks) over prior adaptation methods that assume access to large amounts of annotated source data for adaptation.

arxiv情報

著者 Divya Kothandaraman,Sumit Shekhar,Abhilasha Sancheti,Manoj Ghuhan,Tripti Shukla,Dinesh Manocha
発行日 2022-07-15 09:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク