Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition

要約

視覚的なストーリーテリングは、時間的に順序付けられた一連の画像を与えられて自然言語のストーリーを生成することから構成されます。
このタスクはモデルにとって難しいだけでなく、ストーリーを「良い」ものにするものについてのコンセンサスがないため、自動メトリクスで評価することも非常に困難です。
この論文では、以前の研究で強調された 3 つの重要な側面 (視覚的根拠、一貫性、反復性) に関する人間らしさの観点からストーリーの品質を測定する新しい方法を紹介します。
次に、この方法を使用して、いくつかのモデルによって生成されたストーリーを評価します。これにより、基礎モデル LLaVA が最良の結果を得ることが示されましたが、50 分の 1 小さいビジュアル ストーリーテリング モデルである TAPM と比較するとわずかしか得られませんでした。
TAPM のビジュアルおよび言語コンポーネントをアップグレードすると、比較的少ないパラメータ数で競争力のあるパフォーマンスを生み出すモデルが得られます。
最後に、人間による評価研究を実施しました。その結果は、「良い」ストーリーには、人間のレベル以上の視覚的な基礎、一貫性、反復が必要である可能性があることを示唆しています。

要約(オリジナル)

Visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story ‘good’. In this paper, we introduce a novel method that measures story quality in terms of human likeness regarding three key aspects highlighted in previous work: visual grounding, coherence, and repetitiveness. We then use this method to evaluate the stories generated by several models, showing that the foundation model LLaVA obtains the best result, but only slightly so compared to TAPM, a 50-times smaller visual storytelling model. Upgrading the visual and language components of TAPM results in a model that yields competitive performance with a relatively low number of parameters. Finally, we carry out a human evaluation study, whose results suggest that a ‘good’ story may require more than a human-like level of visual grounding, coherence, and repetition.

arxiv情報

著者 Aditya K Surikuchi,Raquel Fernández,Sandro Pezzelle
発行日 2024-08-29 15:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク