Ordered Attention for Coherent Visual Storytelling

要約

視覚的なストーリーテリングの問題、つまり、特定の一連の画像のストーリーを生成する問題に対処します。
ストーリーの各文は対応するイメージを説明する必要がありますが、首尾一貫したストーリーは一貫性があり、未来と過去のイメージの両方に関連している必要があります。
これを実現するために、順序付き画像注意 (OIA) を開発します。
OIA は、文に対応する画像とシーケンスの他の画像の重要な領域との間の相互作用をモデル化します。
重要なオブジェクトを強調するために、メッセージ パッシングのようなアルゴリズムが、順序を意識した方法でそれらのオブジェクトの表現を収集します。
ストーリーのセンテンスを生成するために、重要な画像アテンション ベクトルを Image-Sentence Attention (ISA) で強調表示します。
さらに、反復性などの一般的な言語ミスを軽減するために、適応事前確率を導入します。
得られた結果により、VIST データセットの METEOR スコアが 1% 向上します。
さらに、大規模な人的研究により、一貫性の向上が検証され、OIA と ISA によって生成されたストーリーがより焦点が絞られ、共有可能で、イメージに基づいていることが示されています。

要約(オリジナル)

We address the problem of visual storytelling, i.e., generating a story for a given sequence of images. While each sentence of the story should describe a corresponding image, a coherent story also needs to be consistent and relate to both future and past images. To achieve this we develop ordered image attention (OIA). OIA models interactions between the sentence-corresponding image and important regions in other images of the sequence. To highlight the important objects, a message-passing-like algorithm collects representations of those objects in an order-aware manner. To generate the story’s sentences, we then highlight important image attention vectors with an Image-Sentence Attention (ISA). Further, to alleviate common linguistic mistakes like repetitiveness, we introduce an adaptive prior. The obtained results improve the METEOR score on the VIST dataset by 1%. In addition, an extensive human study verifies coherency improvements and shows that OIA and ISA generated stories are more focused, shareable, and image-grounded.

arxiv情報

著者 Tom Braude,Idan Schwartz,Alexander Schwing,Ariel Shamir
発行日 2022-10-11 14:09:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク