要約
過去数十年の間に、一般にマンガと呼ばれる日本のコミックは、文化と言語の境界を超えて、真の世界的センセーションを巻き起こしました。
しかし、マンガは本質的に視覚的な手がかりやイラストに依存しているため、視覚障害のある人にとってマンガはほとんどアクセスできません。
この取り組みでは、マンガがすべての人に評価され、積極的に参加できるようにすることを目的として、この大きな障壁に対処しようとします。
具体的には、日記化の問題、つまり、誰がいつ何を言ったかの文字起こしを完全に自動で生成するという問題に取り組みます。
この目的を達成するために、私たちは以下の貢献を行います: (1) 統合モデル Magi を提示します。これは、(a) パネル、テキスト ボックス、および文字ボックスを検出し、(b) (文字の数を知らなくても) アイデンティティによって文字をクラスタリングすることができます。
クラスター先験的)、および(c)対話をその話者に関連付けます。
(2) 検出されたテキスト ボックスを読み上げ順に並べ替え、会話トランスクリプトを生成できる新しいアプローチを提案します。
(3) 公開されている [英語] マンガ ページを使用して、このタスクの評価ベンチマークに注釈を付けます。
コード、評価データセット、および事前トレーニングされたモデルは、https://github.com/ragavsachdeva/magi で見つけることができます。
要約(オリジナル)
In the past few decades, Japanese comics, commonly referred to as Manga, have transcended both cultural and linguistic boundaries to become a true worldwide sensation. Yet, the inherent reliance on visual cues and illustration within manga renders it largely inaccessible to individuals with visual impairments. In this work, we seek to address this substantial barrier, with the aim of ensuring that manga can be appreciated and actively engaged by everyone. Specifically, we tackle the problem of diarisation i.e. generating a transcription of who said what and when, in a fully automatic way. To this end, we make the following contributions: (1) we present a unified model, Magi, that is able to (a) detect panels, text boxes and character boxes, (b) cluster characters by identity (without knowing the number of clusters apriori), and (c) associate dialogues to their speakers; (2) we propose a novel approach that is able to sort the detected text boxes in their reading order and generate a dialogue transcript; (3) we annotate an evaluation benchmark for this task using publicly available [English] manga pages. The code, evaluation datasets and the pre-trained model can be found at: https://github.com/ragavsachdeva/magi.
arxiv情報
著者 | Ragav Sachdeva,Andrew Zisserman |
発行日 | 2024-08-01 05:18:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google