Internet Explorer: Targeted Representation Learning on the Open Web

要約

最新の視覚モデルは通常、大規模な静的データセットで事前トレーニングされた微調整された汎用モデルに依存しています。
これらの汎用モデルは、事前トレーニング データセット内の知識のみをキャプチャします。これは、毎日何十億もの画像がアップロードされるインターネットの小さな古いスナップショットです。
私たちは別のアプローチを提案します。大規模な事前トレーニング後に静的データセットが目的のタスクに転送されることを期待するのではなく、インターネットを動的に利用して、目の前のタスクで非常にうまく機能する小規模モデルを迅速にトレーニングすることを提案します。
Internet Explorer と呼ばれる私たちのアプローチは、自己監視型の方法で Web を探索し、目的のターゲット データセットのパフォーマンスを向上させる関連サンプルを徐々に見つけます。
これは、テキスト クエリによるインターネット上の画像の検索、ダウンロードした画像の自己教師ありトレーニング、どの画像が役に立ったかの判断、次に検索するものの優先順位付けを繰り返します。
私たちは、複数のデータセットにわたって Internet Explorer を評価し、単一の GPU デスクトップを使用して 30 ~ 40 時間にわたってインターネットにアクティブにクエリを実行することにより、CLIP oracle のパフォーマンスを上回るか同等のパフォーマンスを発揮することを示しました。
結果、視覚化、ビデオは https://internet-explorer-ssl.github.io/ にあります。

要約(オリジナル)

Modern vision models typically rely on fine-tuning general-purpose models pre-trained on large, static datasets. These general-purpose models only capture the knowledge within their pre-training datasets, which are tiny, out-of-date snapshots of the Internet — where billions of images are uploaded each day. We suggest an alternate approach: rather than hoping our static datasets transfer to our desired tasks after large-scale pre-training, we propose dynamically utilizing the Internet to quickly train a small-scale model that does extremely well on the task at hand. Our approach, called Internet Explorer, explores the web in a self-supervised manner to progressively find relevant examples that improve performance on a desired target dataset. It cycles between searching for images on the Internet with text queries, self-supervised training on downloaded images, determining which images were useful, and prioritizing what to search for next. We evaluate Internet Explorer across several datasets and show that it outperforms or matches CLIP oracle performance by using just a single GPU desktop to actively query the Internet for 30–40 hours. Results, visualizations, and videos at https://internet-explorer-ssl.github.io/

arxiv情報

著者 Alexander C. Li,Ellis Brown,Alexei A. Efros,Deepak Pathak
発行日 2023-09-07 01:47:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.NE, cs.RO パーマリンク