要約
この研究では、ソーシャルメディア、特にTwitterで共有される画像の代替テキスト(またはalt-text)説明を生成するためのアプローチを紹介する。alt-textは単なる画像キャプションの特殊なケースではなく、より文字通りの説明的で文脈に特化したものである。また、Twitterに投稿された画像には、ユーザーが書いたテキストが添えられていることが多く、そのテキストは必ずしも画像を説明していないにもかかわらず、適切に活用されれば有益なコンテキストを提供する可能性があります。我々は、画像からの視覚的信号だけでなく、関連するソーシャルメディア投稿からのテキスト情報の両方を条件とするマルチモーダルモデルでこのタスクに取り組み、これら2つの情報源の有用性が積み重なることを実証する。我々は、altテキストとTwitterからスクレイピングされたツイートとペアになった371kの画像からなる新しいデータセットを提唱し、様々な自動化されたメトリクスと人間による評価で評価する。ツイートテキストと視覚情報の両方を条件とする我々のアプローチが、先行研究を大幅に上回り、BLEU@4で2倍以上の差をつけることを示す。
要約(オリジナル)
In this work we present an approach for generating alternative text (or alt-text) descriptions for images shared on social media, specifically Twitter. More than just a special case of image captioning, alt-text is both more literally descriptive and context-specific. Also critically, images posted to Twitter are often accompanied by user-written text that despite not necessarily describing the image may provide useful context that if properly leveraged can be informative. We address this task with a multimodal model that conditions on both textual information from the associated social media post as well as visual signal from the image, and demonstrate that the utility of these two information sources stacks. We put forward a new dataset of 371k images paired with alt-text and tweets scraped from Twitter and evaluate on it across a variety of automated metrics as well as human evaluation. We show that our approach of conditioning on both tweet text and visual information significantly outperforms prior work, by more than 2x on BLEU@4.
arxiv情報
著者 | Nikita Srivatsan,Sofia Samaniego,Omar Florez,Taylor Berg-Kirkpatrick |
発行日 | 2024-02-29 22:31:53+00:00 |
arxivサイト | arxiv_id(pdf) |