Towards Free Data Selection with General-Purpose Models

要約

望ましいデータ選択アルゴリズムでは、最も有益なサンプルを効率的に選択して、限られたアノテーションの予算を最大限に活用できます。
ただし、アクティブ ラーニング手法に代表される現在のアプローチは、通常、時間のかかるモデルのトレーニングとバッチ データの選択を繰り返し行う面倒なパイプラインに従います。
このペーパーでは、既存の汎用モデルを利用し、追加のトレーニングや監視を必要とせずにシングルパス推論でさまざまなデータセットからデータを選択する独自のデータ選択パイプラインを設計することで、この現状に挑戦します。
この新しいパイプラインに従って、新しい自由データ選択 (FreeSel) メソッドが提案されています。
具体的には、汎用モデルの中間特徴から抽出した意味パターンを定義し、各画像内の微妙な局所情報を捕捉します。
次に、きめの細かいセマンティック パターン レベルでの距離ベースのサンプリングを通じて、シングル パスですべてのデータ サンプルを選択できるようにします。
FreeSel は、大量のバッチ選択プロセスをバイパスし、効率の大幅な向上を実現し、既存のアクティブ ラーニング手法よりも 530 倍高速です。
広範な実験により、さまざまなコンピューター ビジョン タスクにおける FreeSel の有効性が検証されています。
私たちのコードは https://github.com/yichen928/FreeSel で入手できます。

要約(オリジナル)

A desirable data selection algorithm can efficiently choose the most informative samples to maximize the utility of limited annotation budgets. However, current approaches, represented by active learning methods, typically follow a cumbersome pipeline that iterates the time-consuming model training and batch data selection repeatedly. In this paper, we challenge this status quo by designing a distinct data selection pipeline that utilizes existing general-purpose models to select data from various datasets with a single-pass inference without the need for additional training or supervision. A novel free data selection (FreeSel) method is proposed following this new pipeline. Specifically, we define semantic patterns extracted from inter-mediate features of the general-purpose model to capture subtle local information in each image. We then enable the selection of all data samples in a single pass through distance-based sampling at the fine-grained semantic pattern level. FreeSel bypasses the heavy batch selection process, achieving a significant improvement in efficiency and being 530x faster than existing active learning methods. Extensive experiments verify the effectiveness of FreeSel on various computer vision tasks. Our code is available at https://github.com/yichen928/FreeSel.

arxiv情報

著者 Yichen Xie,Mingyu Ding,Masayoshi Tomizuka,Wei Zhan
発行日 2023-09-29 15:50:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク