要約
ニュースのキャプションは、ニュース記事の本文を入力として画像を記述することを目的としています。
これは、現実世界の人物、組織、場所など、検出された一連の名前付きエンティティに大きく依存しています。
この論文では、常識的な知識を利用して、ニュースのキャプションの名前付きエンティティを理解します。
「理解する」とは、ニュースの内容を世間の常識と関連付けることを意味します。これは、エージェントが 1) 意味的に類似した名前付きエンティティを区別し、2) トレーニング コーパス以外の単語を使用して名前付きエンティティを説明するのに役立ちます。
私たちのアプローチは 3 つのモジュールで構成されます: (a) フィルター モジュールは、名前付きエンティティに関する常識を 2 つの側面から明確にすることを目的としています。
とそれは何に関係していますか? では、常識はそれぞれ説明的な知識と関連知識に分けられます。
(b) 区別モジュールは、ノード次数、依存関係から説明的な知識を集約し、意味的に類似した名前付きエンティティを区別するための 3 つの側面を区別します。
(c) 強化モジュールは、常識的な情報 (身元や社会的地位など) によってエンティティの説明を強化するために、名前付きエンティティに関連する知識を付加します。
最後に、両方のモジュールからの確率分布が統合されて、ニュース キャプションが生成されます。
2 つの困難なデータセット (つまり、GoodNews と NYTimes) に対する広範な実験により、私たちの手法の優位性が実証されました。
アブレーションの研究と視覚化により、名前付きエンティティの理解におけるその有効性がさらに検証されます。
要約(オリジナル)
News captioning aims to describe an image with its news article body as input. It greatly relies on a set of detected named entities, including real-world people, organizations, and places. This paper exploits commonsense knowledge to understand named entities for news captioning. By “understand”, we mean correlating the news content with common sense in the wild, which helps an agent to 1) distinguish semantically similar named entities and 2) describe named entities using words outside of training corpora. Our approach consists of three modules: (a) Filter Module aims to clarify the common sense concerning a named entity from two aspects: what does it mean? and what is it related to?, which divide the common sense into explanatory knowledge and relevant knowledge, respectively. (b) Distinguish Module aggregates explanatory knowledge from node-degree, dependency, and distinguish three aspects to distinguish semantically similar named entities. (c) Enrich Module attaches relevant knowledge to named entities to enrich the entity description by commonsense information (e.g., identity and social position). Finally, the probability distributions from both modules are integrated to generate the news captions. Extensive experiments on two challenging datasets (i.e., GoodNews and NYTimes) demonstrate the superiority of our method. Ablation studies and visualization further validate its effectiveness in understanding named entities.
arxiv情報
著者 | Ning Xu,Yanhui Wang,Tingting Zhang,Hongshuo Tian,Mohan Kankanhalli,An-An Liu |
発行日 | 2024-03-11 08:52:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google