要約
社会的意味や文化的詳細に深く根ざしたユーモアは、機械にとって独特の課題となります。
自然言語処理は進歩していますが、現実世界のユーモアは、多くの場合、ミームによって独特にカプセル化されたマルチモーダルな文脈で繁栄します。
この論文では、ミームのキャプションに対する複数の画像の影響に特に重点を置いています。
その後、\textsc{XMeCap} フレームワークを紹介します。これは、ビジュアルとテキスト間のグローバルとローカルの両方の類似性を考慮した、革新的な報酬モデルに基づく教師あり微調整と強化学習を採用する新しいアプローチです。
現在のモデルと比較してベンチマークされた私たちの結果は、単一画像ミームと複数画像ミームの両方、およびさまざまなミーム カテゴリのキャプション生成が顕著に向上していることを示しています。
\textsc{XMeCap} は、単一画像ミームで 75.85、複数画像ミームで 66.32 の平均評価スコアを達成し、最高のベースラインをそれぞれ 3.71\% と 4.82\% 上回りました。
この研究は、ミーム関連の研究に新たな境地を確立するだけでなく、マルチモーダルな環境におけるユーモアの理解と生成における機械の可能性を強調するものでもあります。
要約(オリジナル)
Humor, deeply rooted in societal meanings and cultural details, poses a unique challenge for machines. While advances have been made in natural language processing, real-world humor often thrives in a multi-modal context, encapsulated distinctively by memes. This paper poses a particular emphasis on the impact of multi-images on meme captioning. After that, we introduce the \textsc{XMeCap} framework, a novel approach that adopts supervised fine-tuning and reinforcement learning based on an innovative reward model, which factors in both global and local similarities between visuals and text. Our results, benchmarked against contemporary models, manifest a marked improvement in caption generation for both single-image and multi-image memes, as well as different meme categories. \textsc{XMeCap} achieves an average evaluation score of 75.85 for single-image memes and 66.32 for multi-image memes, outperforming the best baseline by 3.71\% and 4.82\%, respectively. This research not only establishes a new frontier in meme-related studies but also underscores the potential of machines in understanding and generating humor in a multi-modal setting.
arxiv情報
著者 | Yuyan Chen,Songzhou Yan,Zhihong Zhu,Zhixu Li,Yanghua Xiao |
発行日 | 2024-07-31 12:56:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google