Pixel Aligned Language Models

要約

大規模な言語モデルは、ビジョンにおけるそのバリエーションとして、近年大きな成功を収めています。
既存の視覚言語モデルは、自然言語で画像を記述したり、視覚関連の質問に答えたり、画像に関する複雑な推論を実行したりできます。
ただし、大規模な言語モデルを使用して、単語のグラウンディングや参照ローカリゼーションなどのローカリゼーション タスクをどのように実行できるかはまだ不明です。
この研究では、入力または出力として位置 (点やボックスのセットなど) を取得できる視覚言語モデルを開発することを目的としています。
位置を入力として取得すると、モデルは位置条件付きキャプションを実行し、指定されたオブジェクトまたは領域のキャプションを生成します。
出力として位置を生成するとき、私たちのモデルは、言語モデルによって生成された各出力単語のピクセル座標を回帰するため、高密度の単語グラウンディングを実行します。
私たちのモデルはローカライズされたナラティブ データセットで事前トレーニングされており、人間の注意によるピクセルと単語に合わせたキャプションが含まれています。
私たちのモデルが、RefCOCO と Visual Genome での最先端のパフォーマンスのアーカイブ、参照ローカリゼーション、位置条件付きキャプション、高密度オブジェクト キャプションなど、さまざまな位置認識視覚言語タスクに適用できることを示します。
プロジェクトページ: https://jerryxu.net/PixelLLM 。

要約(オリジナル)

Large language models have achieved great success in recent years, so as their variants in vision. Existing vision-language models can describe images in natural languages, answer visual-related questions, or perform complex reasoning about the image. However, it is yet unclear how localization tasks, such as word grounding or referring localization, can be performed using large language models. In this work, we aim to develop a vision-language model that can take locations, for example, a set of points or boxes, as either inputs or outputs. When taking locations as inputs, the model performs location-conditioned captioning, which generates captions for the indicated object or region. When generating locations as outputs, our model regresses pixel coordinates for each output word generated by the language model, and thus performs dense word grounding. Our model is pre-trained on the Localized Narrative dataset, which contains pixel-word-aligned captioning from human attention. We show our model can be applied to various location-aware vision-language tasks, including referring localization, location-conditioned captioning, and dense object captioning, archiving state-of-the-art performance on RefCOCO and Visual Genome. Project page: https://jerryxu.net/PixelLLM .

arxiv情報

著者 Jiarui Xu,Xingyi Zhou,Shen Yan,Xiuye Gu,Anurag Arnab,Chen Sun,Xiaolong Wang,Cordelia Schmid
発行日 2023-12-14 18:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク