UKnow: A Unified Knowledge Protocol for Common-Sense Reasoning and Vision-Language Pre-training

要約

この作業は、データの観点から知識ベースの研究を容易にする UKnow と呼ばれる統一された知識プロトコルを提示します。
特に視覚的および言語的モダリティに焦点を当て、データ知識を 5 つの単位タイプ、すなわち、イメージ内、テキスト内、クロスイメージ、クロステキスト、およびイメージテキストに分類し、効率的なパイプラインを設定して、
任意のデータ コレクションからのマルチモーダル ナレッジ グラフ。
ナレッジ グラフに自然に含まれる論理情報のおかげで、UKnow 形式でデータセットを整理すると、一般的に使用される画像とテキストのペアと比較して、データの使用の可能性が広がります。
UKnow プロトコルに従って、公開されている国際ニュースから、1,388,568 ノード (571,791 ビジョン関連ノード) と 3,673,817 トリプレットで構成される大規模なマルチモーダル ナレッジ グラフ データセットを収集します。
データセットには、11 個の粗いラベルと 9,185 個の細かいラベルを含む豊富なイベント タグの注釈も付けられています。
4 つのベンチマークでの実験は、常識的な推論をサポートし、単一のデータセットを使用してビジョン言語の事前トレーニングを促進することで、統一された形式の知識組織から恩恵を受ける UKnow の可能性を示しています。
コード、データセット、モデルは公開されます。

要約(オリジナル)

This work presents a unified knowledge protocol, called UKnow, which facilitates knowledge-based studies from the perspective of data. Particularly focusing on visual and linguistic modalities, we categorize data knowledge into five unit types, namely, in-image, in-text, cross-image, cross-text, and image-text, and set up an efficient pipeline to help construct the multimodal knowledge graph from any data collection. Thanks to the logical information naturally contained in knowledge graph, organizing datasets under UKnow format opens up more possibilities of data usage compared to the commonly used image-text pairs. Following UKnow protocol, we collect, from public international news, a large-scale multimodal knowledge graph dataset that consists of 1,388,568 nodes (with 571,791 vision-related ones) and 3,673,817 triplets. The dataset is also annotated with rich event tags, including 11 coarse labels and 9,185 fine labels. Experiments on four benchmarks demonstrate the potential of UKnow in supporting common-sense reasoning and boosting vision-language pre-training with a single dataset, benefiting from its unified form of knowledge organization. Code, dataset, and models will be made publicly available.

arxiv情報

著者 Biao Gong,Xiaoying Xie,Yutong Feng,Yiliang Lv,Yujun Shen,Deli Zhao
発行日 2023-03-21 16:33:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク