General Object Foundation Model for Images and Videos at Scale

要約

この研究では、画像やビデオ内のオブジェクトの位置を特定し、識別するためのオブジェクトレベルの基礎モデルである GLEE を紹介します。
統一フレームワークを通じて、GLEE はさまざまな物体認識タスクのためのオープンワールド シナリオにおける任意の物体の検出、セグメンテーション、追跡、グラウンディング、識別を実現します。
一貫した学習戦略を採用する GLEE は、さまざまな監視レベルで多様なデータ ソースから知識を取得して、一般的なオブジェクト表現を定式化し、新しいデータやタスクへのゼロショット転送に優れています。
具体的には、画像エンコーダー、テキスト エンコーダー、およびビジュアル プロンプターを採用してマルチモーダル入力を処理し、最先端のパフォーマンスを維持しながら、オブジェクト中心のさまざまな下流タスクを同時に解決できるようにします。
さまざまなベンチマークからの 500 万を超える画像に対する広範なトレーニングを通じて実証された GLEE は、顕著な多用途性と汎化パフォーマンスの向上を示し、タスク固有の適応を必要とせずに下流のタスクに効率的に取り組みます。
自動的にラベル付けされた大量のデータを統合することで、ゼロショット汎化機能がさらに強化されます。
さらに、GLEE は大規模言語モデルに統合でき、マルチモーダル タスクに普遍的なオブジェクト レベルの情報を提供するための基礎モデルとして機能します。
私たちは、私たちの手法の多用途性と普遍性が、AGI システムの効率的なビジュアル基盤モデルの開発における重要な一歩となることを願っています。
モデルとコードは https://glee-vision.github.io でリリースされます。

要約(オリジナル)

We present GLEE in this work, an object-level foundation model for locating and identifying objects in images and videos. Through a unified framework, GLEE accomplishes detection, segmentation, tracking, grounding, and identification of arbitrary objects in the open world scenario for various object perception tasks. Adopting a cohesive learning strategy, GLEE acquires knowledge from diverse data sources with varying supervision levels to formulate general object representations, excelling in zero-shot transfer to new data and tasks. Specifically, we employ an image encoder, text encoder, and visual prompter to handle multi-modal inputs, enabling to simultaneously solve various object-centric downstream tasks while maintaining state-of-the-art performance. Demonstrated through extensive training on over five million images from diverse benchmarks, GLEE exhibits remarkable versatility and improved generalization performance, efficiently tackling downstream tasks without the need for task-specific adaptation. By integrating large volumes of automatically labeled data, we further enhance its zero-shot generalization capabilities. Additionally, GLEE is capable of being integrated into Large Language Models, serving as a foundational model to provide universal object-level information for multi-modal tasks. We hope that the versatility and universality of our method will mark a significant step in the development of efficient visual foundation models for AGI systems. The model and code will be released at https://glee-vision.github.io .

arxiv情報

著者 Junfeng Wu,Yi Jiang,Qihao Liu,Zehuan Yuan,Xiang Bai,Song Bai
発行日 2023-12-14 17:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク