Dataset of News Articles with Provenance Metadata for Media Relevance Assessment

要約

コンテキスト外および誤った画像は、今日の誤った情報と偽情報の状況におけるメディア操作の主要な形態です。
このプラクティスを検出しようとする既存の方法は、多くの場合、画像のセマンティクスがテキストの物語に対応しているかどうかを検討し、描かれたオブジェクトやシーンが手元の物語に多少対応する限り、操作が欠けています。
これに取り組むために、出所タグ付き画像を含むニュース記事のデータセットであるニュースメディア出力データセットを紹介します。
このデータセットに2つのタスク、原点関連の位置(LOR)と原産地関連の日時(DTOR)を策定し、6つの大手言語モデル(LLM)でベースライン結果を提示します。
LORでのゼロショットパフォーマンスは有望である一方で、DTORのパフォーマンスが妨げられ、専門のアーキテクチャと将来の仕事の余地があることを特定します。

要約(オリジナル)

Out-of-context and misattributed imagery is the leading form of media manipulation in today’s misinformation and disinformation landscape. The existing methods attempting to detect this practice often only consider whether the semantics of the imagery corresponds to the text narrative, missing manipulation so long as the depicted objects or scenes somewhat correspond to the narrative at hand. To tackle this, we introduce News Media Provenance Dataset, a dataset of news articles with provenance-tagged images. We formulate two tasks on this dataset, location of origin relevance (LOR) and date and time of origin relevance (DTOR), and present baseline results on six large language models (LLMs). We identify that, while the zero-shot performance on LOR is promising, the performance on DTOR hinders, leaving room for specialized architectures and future work.

arxiv情報

著者 Tomas Peterka,Matyas Bohacek
発行日 2025-06-11 15:21:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY パーマリンク