Rule-driven News Captioning

要約

ニュース キャプション タスクは、ニュース記事を含む画像の名前付きエンティティまたは具体的なイベントを説明することで文章を生成することを目的としています。
既存の手法は、主に入力ニュース内容と出力予測の間の相関関係に焦点を当てた大規模な事前トレーニング済みモデルに依存することで、顕著な結果を達成しています。
ただし、ニュースのキャプションでは、イベントに関連する個人や行動を正確に説明するなど、ニュース報道の基本的なルールに従う必要があります。
本稿では、指定されたルール信号に従って画像説明を生成できるルール駆動型ニュースキャプション手法を提案する。
具体的には、まずニュースを意識した説明の意味ルールを設計します。
このルールには、画像に描かれている主要なアクション (例: 「実行」) と、そのアクションに関与する名前付きエンティティによって果たされる役割 (例: 「エージェント」や「場所」) が組み込まれています。
次に、プレフィックス調整戦略を使用して、このセマンティック ルールを大規模な事前トレーニング済みモデルである BART に注入します。この戦略では、複数のエンコーダー レイヤーにニュース対応のセマンティック ルールが埋め込まれています。
最後に、指定されたルールに準拠したニュース文を生成するように BART を効果的に誘導できます。
広く使用されている 2 つのデータセット (GoodNews と NYTimes800k) に対する広範な実験により、私たちの手法の有効性が実証されました。

要約(オリジナル)

News captioning task aims to generate sentences by describing named entities or concrete events for an image with its news article. Existing methods have achieved remarkable results by relying on the large-scale pre-trained models, which primarily focus on the correlations between the input news content and the output predictions. However, the news captioning requires adhering to some fundamental rules of news reporting, such as accurately describing the individuals and actions associated with the event. In this paper, we propose the rule-driven news captioning method, which can generate image descriptions following designated rule signal. Specifically, we first design the news-aware semantic rule for the descriptions. This rule incorporates the primary action depicted in the image (e.g., ‘performing’) and the roles played by named entities involved in the action (e.g., ‘Agent’ and ‘Place’). Second, we inject this semantic rule into the large-scale pre-trained model, BART, with the prefix-tuning strategy, where multiple encoder layers are embedded with news-aware semantic rule. Finally, we can effectively guide BART to generate news sentences that comply with the designated rule. Extensive experiments on two widely used datasets (i.e., GoodNews and NYTimes800k) demonstrate the effectiveness of our method.

arxiv情報

著者 Ning Xu,Tingting Zhang,Hongshuo Tian,Yongdong Zhang,An-An Liu
発行日 2024-03-08 07:06:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク