要約
接地された視覚言語(VL)モデリングのためにテキストとボックスの出力を統合するUniTABを提案します。
固定キャプションなどの固定VLタスクでは、モデルがテキストの説明を生成し、予測された単語をオブジェクト領域に揃える必要があります。
これを実現するには、モデルは目的のテキストとボックスの出力を一緒に生成し、その間、単語とボックスの間の配置を示す必要があります。
異なる出力に複数の個別のモジュールを使用する既存のソリューションとは対照的に、UniTABは、共有トークンシーケンスでテキスト出力とボックス出力の両方を表し、シーケンス内の単語ボックスの配置を自然に示す特別な
したがって、UniTABは、生成された単語をオブジェクト領域に自由に接地することにより、より包括的で解釈可能な画像記述を提供できます。
接地されたキャプションでは、UniTABは単一の出力ヘッドを備えたよりシンプルなソリューションを提供し、接地とキャプションの評価の両方で最先端技術を大幅に上回っています。
必要な出力形式(テキスト、ボックス、またはそれらの組み合わせ)が異なる一般的なVLタスクでは、単一のネットワークを備えたUniTABは、タスク固有の最先端技術よりも優れた、または同等のパフォーマンスを実現します。
実験は、接地されたキャプション、視覚的な接地、画像のキャプション、視覚的な質問応答を含む7つのVLベンチマークをカバーしています。
さらに、UniTABの統合されたマルチタスクネットワークとタスクにとらわれない出力シーケンス設計により、モデルパラメータが効率的になり、新しいタスクに一般化できるようになります。
要約(オリジナル)
We propose UniTAB that Unifies Text And Box outputs for grounded vision-language (VL) modeling. Grounded VL tasks such as grounded captioning require the model to generate a text description and align predicted words with object regions. To achieve this, models must generate desired text and box outputs together, and meanwhile indicate the alignments between words and boxes. In contrast to existing solutions that use multiple separate modules for different outputs, UniTAB represents both text and box outputs with a shared token sequence, and introduces a special
arxiv情報
著者 | Zhengyuan Yang,Zhe Gan,Jianfeng Wang,Xiaowei Hu,Faisal Ahmed,Zicheng Liu,Yumao Lu,Lijuan Wang |
発行日 | 2022-07-27 17:56:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google