Visual Pre-Training on Unlabeled Images using Reinforcement Learning

要約

強化学習(RL)では、価値ベースのアルゴリズムは、各観察結果を状態に関連付け、そこから到達する可能性が高い報酬を学ぶことを学びます。
多くの自己監視された画像のトレーニング前の方法は、この定式化と類似していることがわかります。例えば、画像の作物を近くのビューの作物と関連付ける特徴を学習します。
このホワイトペーパーでは、この類推を完了し、RL問題としてWebクロールやビデオフレームなどのラベルのない画像データの事前トレーニングを直接キャストする方法を調査します。
エージェントがビューを変更したり、画像の増強を追加して画像を変換する動的システムで一般的な価値関数をトレーニングします。
この方法での学習は、作物の自己監視に似ていますが、報酬関数を通じて、キュレーションされた画像または存在したときに弱くラベル付けされたキャプションを使用して機能学習を形作るためのシンプルなレバーを提供します。
私たちの実験は、Epickitchensなどのビデオデータ、CoCoなどのシーンデータ、CC12MなどのWebクロールデータなど、野生で無効な画像をトレーニングする際に改善された表現を示しています。

要約(オリジナル)

In reinforcement learning (RL), value-based algorithms learn to associate each observation with the states and rewards that are likely to be reached from it. We observe that many self-supervised image pre-training methods bear similarity to this formulation: learning features that associate crops of images with those of nearby views, e.g., by taking a different crop or color augmentation. In this paper, we complete this analogy and explore a method that directly casts pre-training on unlabeled image data like web crawls and video frames as an RL problem. We train a general value function in a dynamical system where an agent transforms an image by changing the view or adding image augmentations. Learning in this way resembles crop-consistency self-supervision, but through the reward function, offers a simple lever to shape feature learning using curated images or weakly labeled captions when they exist. Our experiments demonstrate improved representations when training on unlabeled images in the wild, including video data like EpicKitchens, scene data like COCO, and web-crawl data like CC12M.

arxiv情報

著者 Dibya Ghosh,Sergey Levine
発行日 2025-06-13 17:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク