要約
無制限の画像キャプションや制御可能な画像説明などの画像からテキストへのタスクは、何十年にもわたって広く注目されてきました。
ここでは、空間セマンティクスに向けた画像からテキストへの新しい視点である Visual Spatial Description (VSD) を提示することで、この一連の作業をさらに進めます。
画像とその中の 2 つのオブジェクトが与えられると、VSD は 2 つのオブジェクト間の空間的視点に焦点を当てた 1 つの記述を作成することを目的としています。
したがって、データセットに手動で注釈を付けて、新しく導入されたタスクの調査を容易にし、VL-BART と VL-T5 をバックボーンとして使用して、いくつかのベンチマーク エンコーダー/デコーダー モデルを構築します。
さらに、視覚的空間関係分類 (VSRC) 情報をモデルに組み込むためのパイプラインとジョイント エンド ツー エンド アーキテクチャを調査します。
最後に、ベンチマーク データセットで実験を行い、すべてのモデルを評価します。
結果は、私たちのモデルが印象的であり、正確で人間のような空間指向のテキスト説明を提供することを示しています。
一方、VSRC は VSD に大きな可能性を秘めており、エンドツーエンドのジョイント アーキテクチャはそれらの統合に適した選択肢です。
データセットとコードは研究目的で公開しています。
要約(オリジナル)
Image-to-text tasks, such as open-ended image captioning and controllable image description, have received extensive attention for decades. Here, we further advance this line of work by presenting Visual Spatial Description (VSD), a new perspective for image-to-text toward spatial semantics. Given an image and two objects inside it, VSD aims to produce one description focusing on the spatial perspective between the two objects. Accordingly, we manually annotate a dataset to facilitate the investigation of the newly-introduced task and build several benchmark encoder-decoder models by using VL-BART and VL-T5 as backbones. In addition, we investigate pipeline and joint end-to-end architectures for incorporating visual spatial relationship classification (VSRC) information into our model. Finally, we conduct experiments on our benchmark dataset to evaluate all our models. Results show that our models are impressive, providing accurate and human-like spatial-oriented text descriptions. Meanwhile, VSRC has great potential for VSD, and the joint end-to-end architecture is the better choice for their integration. We make the dataset and codes public for research purposes.
arxiv情報
著者 | Yu Zhao,Jianguo Wei,Zhichao Lin,Yueheng Sun,Meishan Zhang,Min Zhang |
発行日 | 2022-10-26 11:29:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google