LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

要約

視覚的なグラウンディングは、ユーザーが指定したテキスト クエリを画像内のクエリ固有の領域にリンクする重要なツールです。
視覚的グラウンディング モデルの進歩にもかかわらず、複雑なクエリを理解する能力は依然として限られています。
この制限を克服するために、複雑なテキスト構造、複数のオブジェクト、またはオブジェクトの空間関係を含む複雑なテキスト クエリを理解する際に、既存の視覚的基礎モデルを強化する光学レンズとしてラージ言語モデル (LLM) を利用する革新的な方法である LLM-Optic を導入します。
現在のモデルが苦労している状況。
LLM-Optic は、まず LLM を Text Grounder として使用して、複雑なテキスト クエリを解釈し、ユーザーが見つけようとしているオブジェクトを正確に識別します。
次に、事前トレーニングされたビジュアル グラウンディング モデルを使用して、Text Grounder によって洗練されたクエリが与えられた場合に候補境界ボックスを生成します。
その後、LLM-Optic は候補の境界ボックスに数値マークを付けてテキストと特定の画像領域の間の接続を確立し、それによって 2 つの異なるモダリティをリンクします。
最後に、大規模マルチモーダル モデル (LMM) をビジュアルグラウンダーとして使用して、元のテキスト クエリに最もよく対応するマークされた候補オブジェクトを選択します。
LLM-Optic を通じて、人間の任意の言語入力によって指定された任意のオブジェクトの検出を可能にする普遍的な視覚基盤を実現しました。
重要なのは、私たちの方法は追加のトレーニングや微調整を必要とせずにこの機能強化を達成することです。
さまざまな挑戦的なベンチマークにわたる広範な実験により、LLM-Optic が最先端のゼロショット ビジュアル グラウンディング機能を実現していることが実証されました。
プロジェクトページ: https://haoyu-zhao.github.io/LLM-Optic.github.io/。

要約(オリジナル)

Visual grounding is an essential tool that links user-provided text queries with query-specific regions within an image. Despite advancements in visual grounding models, their ability to comprehend complex queries remains limited. To overcome this limitation, we introduce LLM-Optic, an innovative method that utilizes Large Language Models (LLMs) as an optical lens to enhance existing visual grounding models in comprehending complex text queries involving intricate text structures, multiple objects, or object spatial relationships, situations that current models struggle with. LLM-Optic first employs an LLM as a Text Grounder to interpret complex text queries and accurately identify objects the user intends to locate. Then a pre-trained visual grounding model is used to generate candidate bounding boxes given the refined query by the Text Grounder. After that, LLM-Optic annotates the candidate bounding boxes with numerical marks to establish a connection between text and specific image regions, thereby linking two distinct modalities. Finally, it employs a Large Multimodal Model (LMM) as a Visual Grounder to select the marked candidate objects that best correspond to the original text query. Through LLM-Optic, we have achieved universal visual grounding, which allows for the detection of arbitrary objects specified by arbitrary human language input. Importantly, our method achieves this enhancement without requiring additional training or fine-tuning. Extensive experiments across various challenging benchmarks demonstrate that LLM-Optic achieves state-of-the-art zero-shot visual grounding capabilities. Project Page: https://haoyu-zhao.github.io/LLM-Optic.github.io/.

arxiv情報

著者 Haoyu Zhao,Wenhang Ge,Ying-cong Chen
発行日 2024-05-28 02:17:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク