要約
研究の目的は、現在利用可能な自己教師あり学習技術が、人間が獲得するのと同じ程度および量の感覚入力を使用して、人間レベルの視覚イメージの理解を達成できるかどうかを判断することです。
このトピックに関する初期の調査では、データ ボリュームのスケーリングのみが考慮されていました。
ここでは、データ量と画像品質の両方を調整します。
このスケーリング実験は、外部からの資金提供なしで実行できる自己教師あり学習方法です。
データ量と画像解像度を同時にスケールアップすると、人間以下のサイズで人間レベルのアイテム検出パフォーマンスが可能になることがわかりました。最大 256 ppi の最大 200,000 枚の画像でトレーニングされたビジョン トランスフォーマーを使用してスケーリング実験を実行します。
要約(オリジナル)
The purpose of the research is to determine if currently available self-supervised learning techniques can accomplish human level comprehension of visual images using the same degree and amount of sensory input that people acquire from. Initial research on this topic solely considered data volume scaling. Here, we scale both the volume of data and the quality of the image. This scaling experiment is a self-supervised learning method that may be done without any outside financing. We find that scaling up data volume and picture resolution at the same time enables human-level item detection performance at sub-human sizes.We run a scaling experiment with vision transformers trained on up to 200000 images up to 256 ppi.
arxiv情報
著者 | Prateek Y J |
発行日 | 2023-08-09 17:40:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google