Multimodal Transformer for Comics Text-Cloze


この作品は、視覚的要素とテキスト要素が複雑に絡み合っている媒体であるコミックにおけるクロージャ タスクを探求しています。
具体的には、Text-cloze は、隣接するパネルを考慮して、漫画のパネルで使用する正しいテキストを選択するタスクを指します。
リカレント ニューラル ネットワークに基づく従来の手法では、OCR の精度と固有のモデルの制限により、このタスクに苦労していました。
Text-cloze 用に特別に設計された新しいマルチモーダル大規模言語モデル (Multimodal-LLM) アーキテクチャを導入し、イージー バリアントとハード バリアントの両方で既存の最先端モデルと比較して 10% の改善を達成しました。
私たちのアプローチの中心となるのは、SimCLR を使用して自己監視された方法でコミック ドメインに合わせて微調整されたドメイン適応型 ResNet-50 ベースのビジュアル エンコーダーです。
このエンコーダは、わずか 5 分の 1 のパラメータで、より複雑なモデルと同等の結果を提供します。
さらに、このデータセット用に新しい OCR アノテーションをリリースし、モデル入力の品質を向上させ、さらに 1% の改善をもたらしました。


This work explores a closure task in comics, a medium where visual and textual elements are intricately intertwined. Specifically, Text-cloze refers to the task of selecting the correct text to use in a comic panel, given its neighboring panels. Traditional methods based on recurrent neural networks have struggled with this task due to limited OCR accuracy and inherent model limitations. We introduce a novel Multimodal Large Language Model (Multimodal-LLM) architecture, specifically designed for Text-cloze, achieving a 10% improvement over existing state-of-the-art models in both its easy and hard variants. Central to our approach is a Domain-Adapted ResNet-50 based visual encoder, fine-tuned to the comics domain in a self-supervised manner using SimCLR. This encoder delivers comparable results to more complex models with just one-fifth of the parameters. Additionally, we release new OCR annotations for this dataset, enhancing model input quality and resulting in another 1% improvement. Finally, we extend the task to a generative format, establishing new baselines and expanding the research possibilities in the field of comics analysis.


著者 Emanuele Vivoli,Joan Lafuente Baeza,Ernest Valveny Llobet,Dimosthenis Karatzas
発行日 2024-03-06 14:11:45+00:00
