Recognize Anything: A Strong Image Tagging Model

要約

私たちは、画像タグ付けのための強力な基盤モデルである Recognize Anything Model (RAM) を紹介します。
RAM は、コンピューター ビジョンの大規模モデルにとって大幅な進歩をもたらし、一般的なカテゴリを高精度で認識するゼロショット機能を実証します。
RAM は、手動の注釈の代わりに大規模な画像とテキストのペアをトレーニングに活用する、画像タグ付けの新しいパラダイムを導入します。
RAM の開発は 4 つの主要なステップで構成されます。
まず、自動テキスト意味解析を通じて、注釈のない画像タグが大規模に取得されます。
その後、キャプションとタグ付けのタスクを統合し、それぞれ元のテキストと解析されたタグによって管理される予備モデルが自動アノテーション用にトレーニングされます。
第三に、データ エンジンを使用して追加の注釈を生成し、誤った注釈を削除します。
最後に、モデルは処理されたデータで再トレーニングされ、より小さいが高品質のデータセットを使用して微調整されます。
多数のベンチマークで RAM のタグ付け機能を評価し、CLIP や BLIP を大幅に上回る素晴らしいゼロショット パフォーマンスを観察しました。
注目すべきことに、RAM は完全に監視された方式をも上回り、Google タグ付け API と競合するパフォーマンスを示します。
コンピューター ビジョンにおける大規模モデルの進歩を促進するために、\url{https://recognize-anything.github.io/} で RAM をリリースします。

要約(オリジナル)

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM makes a substantial step for large models in computer vision, demonstrating the zero-shot ability to recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google tagging API. We are releasing the RAM at \url{https://recognize-anything.github.io/} to foster the advancements of large models in computer vision.

arxiv情報

著者 Youcai Zhang,Xinyu Huang,Jinyu Ma,Zhaoyang Li,Zhaochuan Luo,Yanchun Xie,Yuzhuo Qin,Tong Luo,Yaqian Li,Shilong Liu,Yandong Guo,Lei Zhang
発行日 2023-06-09 15:21:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク