Image-Text Relation Prediction for Multilingual Tweets

要約

さまざまなソーシャルネットワークが10年以上にわたってメディアのアップロードを許可しています。
それでも、投稿されたテキストとの関係が何であるか、またはまったくある場合でも、常に明確ではありませんでした。
この作業では、多言語のビジョン言語モデルが異なる言語での画像テキスト関係予測のタスクにどのように取り組むかを探り、ラトビア語のTwitter投稿から専用のバランスの取れたベンチマークデータセットを構築し、それぞれの英語への翻訳を作成します。
結果を以前の研究と比較し、最近リリースされたビジョン言語モデルチェックポイントがこのタスクでますます能力が高まっていることを示していますが、さらに改善する余地はまだあります。

要約(オリジナル)

Various social networks have been allowing media uploads for over a decade now. Still, it has not always been clear what is their relation with the posted text or even if there is any at all. In this work, we explore how multilingual vision-language models tackle the task of image-text relation prediction in different languages, and construct a dedicated balanced benchmark data set from Twitter posts in Latvian along with their manual translations into English. We compare our results to previous work and show that the more recently released vision-language model checkpoints are becoming increasingly capable at this task, but there is still much room for further improvement.

arxiv情報

著者 Matīss Rikters,Edison Marrese-Taylor
発行日 2025-05-08 08:23:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク