The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World

要約

我々はAll-Seeing(AS)プロジェクトを発表する:オープンワールドの全てを認識し理解するための大規模なデータとモデルである。人間のフィードバックと効率的なモデルをループに組み込んだスケーラブルなデータエンジンを用いて、意味タグ、質問と回答のペア、詳細なキャプションでアノテーションされた10億以上の領域を持つ新しいデータセット(AS-1B)を作成する。このデータセットは、実世界で一般的な概念から稀な概念まで幅広くカバーし、概念とその属性を記述する1,322億のトークンを持つ。この新しいデータセットを活用し、全視覚的な視覚認識と理解のための統一フレームワークであるASM(All-Seeing model)を開発する。このモデルは、自由形式の言語プロンプトと位置情報を用いて学習されるため、領域テキスト検索、領域認識、キャプション付け、質問応答など、様々な視覚・言語タスクにゼロショットで汎化することができる。このプロジェクトが視覚言語人工知能研究の基礎となることを期待している。モデルとデータセットはhttps://github.com/OpenGVLab/All-Seeing、デモはhttps://huggingface.co/spaces/OpenGVLab/all-seeing。

要約(オリジナル)

We present the All-Seeing (AS) project: a large-scale data and model for recognizing and understanding everything in the open world. Using a scalable data engine that incorporates human feedback and efficient models in the loop, we create a new dataset (AS-1B) with over 1 billion regions annotated with semantic tags, question-answering pairs, and detailed captions. It covers a wide range of 3.5 million common and rare concepts in the real world, and has 132.2 billion tokens that describe the concepts and their attributes. Leveraging this new dataset, we develop the All-Seeing model (ASM), a unified framework for panoptic visual recognition and understanding. The model is trained with open-ended language prompts and locations, which allows it to generalize to various vision and language tasks with remarkable zero-shot performance, including region-text retrieval, region recognition, captioning, and question-answering. We hope that this project can serve as a foundation for vision-language artificial general intelligence research. Models and the dataset shall be released at https://github.com/OpenGVLab/All-Seeing, and demo can be seen at https://huggingface.co/spaces/OpenGVLab/all-seeing.

arxiv情報

著者 Weiyun Wang,Min Shi,Qingyun Li,Wenhai Wang,Zhenhang Huang,Linjie Xing,Zhe Chen,Hao Li,Xizhou Zhu,Zhiguo Cao,Yushi Chen,Tong Lu,Jifeng Dai,Yu Qiao
発行日 2023-08-03 17:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク