要約
この論文では、自然言語から取得したエンティティに関する知識がビジョンと言語 (V&L) モデルにどのように保持されるかを検証するためのテーブルと画像生成タスクを提案します。
このタスクは 2 つの部分で構成されます。1 つ目は、エンティティとそれに関連する画像に関する知識を含むテーブルを生成することです。2 つ目は、エンティティからキャプション付きの画像とエンティティの関連知識を含むテーブルを生成することです。
どちらのタスクでも、モデルは生成を適切に実行するために使用されるエンティティを認識している必要があります。
提案されたタスクを実行するために、英語版 Wikipedia 記事の約 200,000 個のインフォボックスから Wikipedia テーブルと画像生成 (WikiTIG) データセットを作成しました。
私たちは、複数のタスクで最先端の結果を達成した V&L モデル OFA を使用して、上記のリサーチクエスチョンに関するタスクのパフォーマンスを評価しました。
実験結果は、OFA が画像関連タスクのパフォーマンスを向上させるための補完として事前トレーニングを行うことにより、エンティティの知識の一部を忘れることを示しています。
要約(オリジナル)
In this paper, we propose a table and image generation task to verify how the knowledge about entities acquired from natural language is retained in Vision & Language (V&L) models. This task consists of two parts: the first is to generate a table containing knowledge about an entity and its related image, and the second is to generate an image from an entity with a caption and a table containing related knowledge of the entity. In both tasks, the model must know the entities used to perform the generation properly. We created the Wikipedia Table and Image Generation (WikiTIG) dataset from about 200,000 infoboxes in English Wikipedia articles to perform the proposed tasks. We evaluated the performance on the tasks with respect to the above research question using the V&L model OFA, which has achieved state-of-the-art results in multiple tasks. Experimental results show that OFA forgets part of its entity knowledge by pre-training as a complement to improve the performance of image related tasks.
arxiv情報
著者 | Hidetaka Kamigaito,Katsuhiko Hayashi,Taro Watanabe |
発行日 | 2023-07-26 02:20:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google