OxfordTVG-HIC: Can Machine Make Humorous Captions from Images?

要約

この論文では、ユーモアの生成と理解のための大規模なデータセットである OxfordTVG-HIC (Humorous Image Captions) を紹介します。
ユーモアは、抽象的、主観的、および状況依存の認知構造であり、いくつかの認知要素が関与しているため、生成して解釈するのは困難な作業です。
したがって、ユーモアの生成と理解は、抽象的で主観的な情報を処理する深層学習方法の能力を評価するための新しいタスクとして機能する可能性があります。
データが不足しているため、キャプションなどのユーモア関連の生成タスクはまだ研究されていません。
このギャップに対処するために、OxfordTVG-HIC は、一般化可能なユーモア キャプション モデルをトレーニングするために、ユーモア スコアを備えた約 290 万の画像とテキストのペアを提供します。
既存のキャプション データセットとは対照的に、OxfordTVG-HIC は幅広い感情的および意味的多様性を特徴としており、その結果、特にユーモアの生成に役立つ文脈から外れた例が得られます。
さらに、OxfordTVG-HIC は不快なコンテンツを含まずに厳選されています。
また、生成されたテキストのユーモアを評価するために OxfordTVG-HIC を活用する方法も示します。
トレーニングされたモデルの説明可能性分析を通じて、ユーモアの予測 (および生成) を引き起こすのに影響を与える視覚的および言語的手がかりを特定します。
私たちは、これらの手がかりが認知心理学におけるユーモアの良性侵害理論と一致していることを定性的に観察しています。

要約(オリジナル)

This paper presents OxfordTVG-HIC (Humorous Image Captions), a large-scale dataset for humour generation and understanding. Humour is an abstract, subjective, and context-dependent cognitive construct involving several cognitive factors, making it a challenging task to generate and interpret. Hence, humour generation and understanding can serve as a new task for evaluating the ability of deep-learning methods to process abstract and subjective information. Due to the scarcity of data, humour-related generation tasks such as captioning remain under-explored. To address this gap, OxfordTVG-HIC offers approximately 2.9M image-text pairs with humour scores to train a generalizable humour captioning model. Contrary to existing captioning datasets, OxfordTVG-HIC features a wide range of emotional and semantic diversity resulting in out-of-context examples that are particularly conducive to generating humour. Moreover, OxfordTVG-HIC is curated devoid of offensive content. We also show how OxfordTVG-HIC can be leveraged for evaluating the humour of a generated text. Through explainability analysis of the trained models, we identify the visual and linguistic cues influential for evoking humour prediction (and generation). We observe qualitatively that these cues are aligned with the benign violation theory of humour in cognitive psychology.

arxiv情報

著者 Runjia Li,Shuyang Sun,Mohamed Elhoseiny,Philip Torr
発行日 2023-07-21 14:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク