要約
この作業は、データの観点から知識ベースの研究を容易にする UKnow と呼ばれる統一された知識プロトコルを提示します。
特に視覚的および言語的モダリティに焦点を当て、データ知識を 5 つの単位タイプ、すなわち、イメージ内、テキスト内、クロスイメージ、クロステキスト、およびイメージテキストに分類します。
このプロトコルに従って、公開されている国際ニュースから、1,388,568 ノード (571,791 ビジョン関連ノード) と 3,673,817 トリプレットで構成される大規模なマルチモーダル ナレッジ グラフ データセットを収集します。
データセットには、96 個の粗いラベルと 9,185 個の細かいラベルを含む豊富なイベント タグの注釈も付けられており、その潜在的な用途が拡大しています。
UKnow が標準プロトコルとして機能できることをさらに検証するために、既存のデータセットを UKnow 形式で再編成するのに役立つ効率的なパイプラインをセットアップしました。
最後に、常識的な推論と視覚言語の事前トレーニングのタスクで、広く使用されているいくつかのベースラインのパフォーマンスをベンチマークします。
新しいデータセットと再フォーマットされた公開データセットの両方での結果は、知識の整理と方法の評価における UKnow の有効性を示しています。
コード、データセット、変換ツール、ベースライン モデルが公開されます。
要約(オリジナル)
This work presents a unified knowledge protocol, called UKnow, which facilitates knowledge-based studies from the perspective of data. Particularly focusing on visual and linguistic modalities, we categorize data knowledge into five unit types, namely, in-image, in-text, cross-image, cross-text, and image-text. Following this protocol, we collect, from public international news, a large-scale multimodal knowledge graph dataset that consists of 1,388,568 nodes (with 571,791 vision-related ones) and 3,673,817 triplets. The dataset is also annotated with rich event tags, including 96 coarse labels and 9,185 fine labels, expanding its potential usage. To further verify that UKnow can serve as a standard protocol, we set up an efficient pipeline to help reorganize existing datasets under UKnow format. Finally, we benchmark the performance of some widely-used baselines on the tasks of common-sense reasoning and vision-language pre-training. Results on both our new dataset and the reformatted public datasets demonstrate the effectiveness of UKnow in knowledge organization and method evaluation. Code, dataset, conversion tool, and baseline models will be made public.
arxiv情報
著者 | Biao Gong,Xiaoying Xie,Yutong Feng,Yiliang Lv,Yujun Shen,Deli Zhao |
発行日 | 2023-02-14 08:27:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google