OSIC: A New One-Stage Image Captioner Coined

要約

画像キャプションモデルの主流は、事前に学習させた検出器により物体特徴を計算し、それを言語モデルに与えてテキスト記述を生成する2段構成のキャプション作成器である。しかし、検出タスクの物体特徴は最適な表現ではなく、その後のテキスト生成に必要なすべての情報を提供できないため、このような動作はタスクベースの情報ギャップを引き起こし、性能を低下させる。また、物体特徴は通常、最終層の特徴で表現されるため、入力画像の局所的な詳細が失われてしまう。本論文では、動的多視点学習を用いた新しいOne-Stage Image Captioner (OSIC)を提案し、一段階で入力画像を説明文に直接変換する。その結果、タスクに基づく情報格差を大幅に低減することができる。豊富な特徴を得るために、スウィン変換器を用いて多値の特徴を計算し、それを新しい動的多視点埋め込みモジュールに送り込み、入力画像の大域的構造と局所的テクスチャの両方を利用する。キャプションのためのエンコーダのグローバルなモデリングを強化するために、埋め込まれた特徴の相互作用を非局所的にモデリングする新しい二次元リファイニングモジュールを提案する。最終的に、OSICは画像キャプションタスクを改善するために、豊富で有用な情報を得ることができる。ベンチマークであるMS-COCOデータセットでの広範な比較により、我々の手法の優れた性能が検証された。

要約(オリジナル)

Mainstream image caption models are usually two-stage captioners, i.e., calculating object features by pre-trained detector, and feeding them into a language model to generate text descriptions. However, such an operation will cause a task-based information gap to decrease the performance, since the object features in detection task are suboptimal representation and cannot provide all necessary information for subsequent text generation. Besides, object features are usually represented by the last layer features that lose the local details of input images. In this paper, we propose a novel One-Stage Image Captioner (OSIC) with dynamic multi-sight learning, which directly transforms input image into descriptive sentences in one stage. As a result, the task-based information gap can be greatly reduced. To obtain rich features, we use the Swin Transformer to calculate multi-level features, and then feed them into a novel dynamic multi-sight embedding module to exploit both global structure and local texture of input images. To enhance the global modeling of encoder for caption, we propose a new dual-dimensional refining module to non-locally model the interaction of the embedded features. Finally, OSIC can obtain rich and useful information to improve the image caption task. Extensive comparisons on benchmark MS-COCO dataset verified the superior performance of our method.

arxiv情報

著者 Bo Wang,Zhao Zhang,Mingbo Zhao,Xiaojie Jin,Mingliang Xu,Meng Wang
発行日 2022-11-04 08:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク