UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling

要約

接地された視覚言語(VL)モデリングのためにテキストとボックスの出力を統合するUniTABを提案します。
固定キャプションなどの固定VLタスクでは、モデルがテキストの説明を生成し、予測された単語をオブジェクト領域に揃える必要があります。
これを実現するには、モデルは目的のテキストとボックスの出力を一緒に生成し、その間、単語とボックスの間の配置を示す必要があります。
異なる出力に複数の個別のモジュールを使用する既存のソリューションとは対照的に、UniTABは、共有トークンシーケンスでテキスト出力とボックス出力の両方を表し、シーケンス内の単語ボックスの配置を自然に示す特別なトークンを導入します。
したがって、UniTABは、生成された単語をオブジェクト領域に自由に接地することにより、より包括的で解釈可能な画像記述を提供できます。
接地されたキャプションでは、UniTABは単一の出力ヘッドを備えたよりシンプルなソリューションを提供し、接地とキャプションの評価の両方で最先端技術を大幅に上回っています。
必要な出力形式(テキスト、ボックス、またはそれらの組み合わせ)が異なる一般的なVLタスクでは、単一のネットワークを備えたUniTABは、タスク固有の最先端技術よりも優れた、または同等のパフォーマンスを実現します。
実験は、接地されたキャプション、視覚的な接地、画像のキャプション、視覚的な質問応答を含む7つのVLベンチマークをカバーしています。
さらに、UniTABの統合されたマルチタスクネットワークとタスクにとらわれない出力シーケンス設計により、モデルパラメータが効率的になり、新しいタスクに一般化できるようになります。

要約(オリジナル)

We propose UniTAB that Unifies Text And Box outputs for grounded vision-language (VL) modeling. Grounded VL tasks such as grounded captioning require the model to generate a text description and align predicted words with object regions. To achieve this, models must generate desired text and box outputs together, and meanwhile indicate the alignments between words and boxes. In contrast to existing solutions that use multiple separate modules for different outputs, UniTAB represents both text and box outputs with a shared token sequence, and introduces a special token to naturally indicate word-box alignments in the sequence. UniTAB thus could provide a more comprehensive and interpretable image description, by freely grounding generated words to object regions. On grounded captioning, UniTAB presents a simpler solution with a single output head, and significantly outperforms state of the art in both grounding and captioning evaluations. On general VL tasks that have different desired output formats (i.e., text, box, or their combination), UniTAB with a single network achieves better or comparable performance than task-specific state of the art. Experiments cover 7 VL benchmarks, including grounded captioning, visual grounding, image captioning, and visual question answering. Furthermore, UniTAB’s unified multi-task network and the task-agnostic output sequence design make the model parameter efficient and generalizable to new tasks.

arxiv情報

著者 Zhengyuan Yang,Zhe Gan,Jianfeng Wang,Xiaowei Hu,Faisal Ahmed,Zicheng Liu,Yumao Lu,Lijuan Wang
発行日 2022-07-27 17:56:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク