要約
最近の自己監視アプローチでは、大規模な画像テキストデータセットを使用して、微調整せずに多くのタスクに転送される強力な表現を学習しています。
これらの方法は、多くの場合、画像とその(短い)キャプションの間に1対1の対応があることを前提としています。
ただし、多くのタスクでは、ニュース記事を視覚的な要約で説明するなど、複数の画像や長いテキストの説明について推論する必要があります。
したがって、テキストの長さや画像の数の変化に対応できる、自己監視型の視覚言語表現を学習することを目標とする新しい設定を検討します。
さらに、キャプションが画像と文字通りの関係を持っていると仮定した以前の作品とは異なり、画像にはテキストとの緩い例示的な対応しか含まれていないと仮定します。
この問題を調査するために、3,100万を超える記事、2,200万の画像、100万の動画を含む大規模なマルチモーダルデータセットを紹介します。
最先端の画像とテキストの位置合わせ方法は、複数の画像を含む長い物語に対して堅牢ではないことを示しています。
最後に、GoodNewsデータセットでのゼロショット画像セット検索でこれらの方法を10%上回る直感的なベースラインを紹介します。
要約(オリジナル)
Recent self-supervised approaches have used large-scale image-text datasets to learn powerful representations that transfer to many tasks without finetuning. These methods often assume that there is one-to-one correspondence between its images and their (short) captions. However, many tasks require reasoning about multiple images and long text narratives, such as describing news articles with visual summaries. Thus, we explore a novel setting where the goal is to learn a self-supervised visual-language representation that is robust to varying text length and the number of images. In addition, unlike prior work which assumed captions have a literal relation to the image, we assume images only contain loose illustrative correspondence with the text. To explore this problem, we introduce a large-scale multimodal dataset containing over 31M articles, 22M images and 1M videos. We show that state-of-the-art image-text alignment methods are not robust to longer narratives with multiple images. Finally, we introduce an intuitive baseline that outperforms these methods on zero-shot image-set retrieval by 10% on the GoodNews dataset.
arxiv情報
著者 | Reuben Tan,Bryan A. Plummer,Kate Saenko,JP Lewis,Avneesh Sud,Thomas Leung |
発行日 | 2022-07-26 17:34:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google