要約
マルチモーダル大手言語モデル(MLLM)の最近の進歩により、能力が大幅に向上しました。
ただし、彼らの空間的認識能力は引き続き顕著な制限です。
この課題に対処するために、マルチモーダルデータ合成は有望なソリューションを提供します。
しかし、合成されたデータが空間的常識に準拠することを保証することは、非自明なタスクです。
この作業では、知識からデータへの概念に基づいた空間知識グラフに導かれる新しいマルチモーダル合成アプローチであるSkg2Dataを紹介します。
SKG2DATAは、空間的知識グラフ(SKG)を自動的に構築して、空間的方向と距離の人間のような知覚をエミュレートします。これは、マルチモーダルデータ統合をガイドするために利用されます。
広範な実験は、MLLMの空間的認識と推論能力を高めるだけでなく、強力な一般化能力を示すだけでなく、方向や距離を含むさまざまなタイプの空間知識から合成されたデータを示しています。
知識ベースのデータ統合のアイデアが空間インテリジェンスの開発を進めることができることを願っています。
要約(オリジナル)
Recent advances in multimodal large language models (MLLMs) have significantly enhanced their capabilities; however, their spatial perception abilities remain a notable limitation. To address this challenge, multimodal data synthesis offers a promising solution. Yet, ensuring that synthesized data adhere to spatial common sense is a non-trivial task. In this work, we introduce SKG2Data, a novel multimodal synthesis approach guided by spatial knowledge graphs, grounded in the concept of knowledge-to-data generation. SKG2Data automatically constructs a Spatial Knowledge Graph (SKG) to emulate human-like perception of spatial directions and distances, which is subsequently utilized to guide multimodal data synthesis. Extensive experiments demonstrate that data synthesized from diverse types of spatial knowledge, including direction and distance, not only enhance the spatial perception and reasoning abilities of MLLMs but also exhibit strong generalization capabilities. We hope that the idea of knowledge-based data synthesis can advance the development of spatial intelligence.
arxiv情報
著者 | Yida Xue,Zhen Bi,Jinnan Yang,Jungang Lou,Huajun Chen,Ningyu Zhang |
発行日 | 2025-05-28 17:50:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google