要約
さまざまな非記号データ (画像やビデオなど) をシンボルにまとめるマルチモーダル ナレッジ グラフ (MMKG) は、モダリティを超えた知識処理と機械学習を可能にするリソースとして注目を集めています。
ただし、日常の活動など、複数のイベントで構成されるビデオ用の MMKG の構築はまだ初期段階にあります。
この論文では、日常活動の同期された多視点シミュレーションビデオに基づいて MMKG を構築します。
MMKG には、日常生活ビデオのコンテンツをイベント中心の知識として表現するだけでなく、ビデオ フレーム内の境界ボックスなど、フレームごとのきめの細かい変更も含まれています。
さらに、MMKG を照会するためのサポート ツールも提供します。
応用例として、MMKG が、カスタマイズされたタスクに必要なビジョン言語データセットを提供することで、ビジョン言語モデルのベンチマークを容易にすることを示します。
要約(オリジナル)
Multi-modal knowledge graphs (MMKGs), which ground various non-symbolic data (e.g., images and videos) into symbols, have attracted attention as resources enabling knowledge processing and machine learning across modalities. However, the construction of MMKGs for videos consisting of multiple events, such as daily activities, is still in the early stages. In this paper, we construct an MMKG based on synchronized multi-view simulated videos of daily activities. Besides representing the content of daily life videos as event-centric knowledge, our MMKG also includes frame-by-frame fine-grained changes, such as bounding boxes within video frames. In addition, we provide support tools for querying our MMKG. As an application example, we demonstrate that our MMKG facilitates benchmarking vision-language models by providing the necessary vision-language datasets for a tailored task.
arxiv情報
著者 | Shusaku Egami,Takahiro Ugai,Swe Nwe Nwe Htun,Ken Fukuda |
発行日 | 2024-08-28 01:56:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google