要約
画像内のオブジェクトとパーツの両方を位置特定し、識別するためのパーツレベルの基礎モデルである PartGLEE を紹介します。
PartGLEE は、統合フレームワークを通じて、オープンワールド シナリオにおいて任意の粒度でインスタンスの検出、セグメンテーション、およびグラウンディングを実現します。
具体的には、オブジェクトとパーツ間の階層関係を構築し、すべてのオブジェクトを対応する意味論的なパーツに解析する Q-Former を提案します。
大量のオブジェクトレベルのデータを組み込むことで階層関係を拡張でき、PartGLEE が豊富な種類の部品を認識できるようになります。
私たちは手法の有効性を検証するために包括的な研究を実施し、PartGLEE はさまざまなパーツレベルのタスクにわたって最先端のパフォーマンスを達成し、オブジェクトレベルのタスクで競争力のある結果を獲得します。
提案された PartGLEE は、以前の GLEE モデルに比べて、階層モデリング機能と部品レベルの認識を大幅に強化します。
さらなる分析により、PartGLEE の階層的認知能力により、mLLM の画像の詳細な理解を容易にできることが示されました。
モデルとコードは https://provencestar.github.io/PartGLEE-Vision/ で公開されます。
要約(オリジナル)
We present PartGLEE, a part-level foundation model for locating and identifying both objects and parts in images. Through a unified framework, PartGLEE accomplishes detection, segmentation, and grounding of instances at any granularity in the open world scenario. Specifically, we propose a Q-Former to construct the hierarchical relationship between objects and parts, parsing every object into corresponding semantic parts. By incorporating a large amount of object-level data, the hierarchical relationships can be extended, enabling PartGLEE to recognize a rich variety of parts. We conduct comprehensive studies to validate the effectiveness of our method, PartGLEE achieves the state-of-the-art performance across various part-level tasks and obtain competitive results on object-level tasks. The proposed PartGLEE significantly enhances hierarchical modeling capabilities and part-level perception over our previous GLEE model. Further analysis indicates that the hierarchical cognitive ability of PartGLEE is able to facilitate a detailed comprehension in images for mLLMs. The model and code will be released at https://provencestar.github.io/PartGLEE-Vision/ .
arxiv情報
著者 | Junyi Li,Junfeng Wu,Weizhi Zhao,Song Bai,Xiang Bai |
発行日 | 2024-07-23 17:58:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google