要約
最新のビジョン モデルは通常、大規模な静的データセットで事前にトレーニングされた汎用モデルの微調整に依存しています。
これらの汎用モデルは、トレーニング前のデータセット内の知識のみをキャプチャします。これは、毎日数十億の画像がアップロードされるインターネットの小さな古いスナップショットです。
別のアプローチを提案します。大規模な事前トレーニングの後に静的データセットが目的のタスクに転送されることを期待するのではなく、インターネットを動的に利用して、目の前のタスクで非常にうまく機能する小規模モデルを迅速にトレーニングすることを提案します。
Internet Explorer と呼ばれる私たちのアプローチは、自己管理型の方法で Web を探索し、目的のターゲット データセットのパフォーマンスを向上させる関連例を徐々に見つけます。
テキスト クエリを使用したインターネット上の画像の検索、ダウンロードした画像の自己監視トレーニング、有用な画像の判断、次に検索する画像の優先順位付けを繰り返します。
いくつかのデータセットで Internet Explorer を評価し、1 つの GPU デスクトップのみを使用して 30 ~ 40 時間アクティブにインターネットにクエリを実行することで、CLIP oracle のパフォーマンスを上回っているか、同等であることを示しています。
https://internet-explorer-ssl.github.io/ の結果、視覚化、ビデオ
要約(オリジナル)
Modern vision models typically rely on fine-tuning general-purpose models pre-trained on large, static datasets. These general-purpose models only capture the knowledge within their pre-training datasets, which are tiny, out-of-date snapshots of the Internet — where billions of images are uploaded each day. We suggest an alternate approach: rather than hoping our static datasets transfer to our desired tasks after large-scale pre-training, we propose dynamically utilizing the Internet to quickly train a small-scale model that does extremely well on the task at hand. Our approach, called Internet Explorer, explores the web in a self-supervised manner to progressively find relevant examples that improve performance on a desired target dataset. It cycles between searching for images on the Internet with text queries, self-supervised training on downloaded images, determining which images were useful, and prioritizing what to search for next. We evaluate Internet Explorer across several datasets and show that it outperforms or matches CLIP oracle performance by using just a single GPU desktop to actively query the Internet for 30–40 hours. Results, visualizations, and videos at https://internet-explorer-ssl.github.io/
arxiv情報
著者 | Alexander C. Li,Ellis Brown,Alexei A. Efros,Deepak Pathak |
発行日 | 2023-02-27 18:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google