要約
Web の画像キャプションを、以前は十分に活用されていなかった言い換え (つまり、同じ「メッセージ」を含むテキスト) のリソースとして使用し、対応するデータセットを作成して分析することを提案します。
Web 上で画像を再利用する場合、オリジナルのキャプションが割り当てられることがよくあります。
同じ画像の異なるキャプションは、相互の言い換えのセットを自然に形成すると仮定します。
このアイデアの妥当性を実証するために、英語版ウィキペディアのキャプションを分析しました。ウィキペディアでは、編集者が同じ画像を別の記事に頻繁に再ラベル付けしています。
この論文では、基礎となるマイニング技術、結果として得られる Wikipedia-IPC データセットを紹介し、既知の言い換えコーパスを、構文的および意味的な言い換えの類似性に関して、新しいリソースと比較します。
このコンテキストでは、異なるソースからの言い換えのスタイルを識別するために、2 つの類似性次元に沿って特性マップを導入します。
注釈研究は、アルゴリズムによって決定された特性マップの高い信頼性を示しています。
要約(オリジナル)
We propose to use image captions from the Web as a previously underutilized resource for paraphrases (i.e., texts with the same ‘message’) and to create and analyze a corresponding dataset. When an image is reused on the Web, an original caption is often assigned. We hypothesize that different captions for the same image naturally form a set of mutual paraphrases. To demonstrate the suitability of this idea, we analyze captions in the English Wikipedia, where editors frequently relabel the same image for different articles. The paper introduces the underlying mining technology, the resulting Wikipedia-IPC dataset, and compares known paraphrase corpora with respect to their syntactic and semantic paraphrase similarity to our new resource. In this context, we introduce characteristic maps along the two similarity dimensions to identify the style of paraphrases coming from different sources. An annotation study demonstrates the high reliability of the algorithmically determined characteristic maps.
arxiv情報
著者 | Marcel Gohsen,Matthias Hagen,Martin Potthast,Benno Stein |
発行日 | 2023-02-15 15:32:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google