Multimodal Neural Databases


– テキストや画像などの多様な形式で提供される緩く構造化されたデータの増加により、これらをクエリする新しい方法が必要となっている。
– マルチメディア情報検索はこの課題を解決し、近年、多大な進歩を遂げてきた。
– 近年のマルチモーダルディープラーニングの発展により、検索や大規模なマルチメディアアーカイブの検索と回収などのタスクが大幅に高速化されてきた。
– ただし、この分野の方法は、サポートするクエリの種類が限られており、特にデータベースのようなクエリには対応できない。
– そのため、最近のニューラルデータベースの研究に着想を得て、異なる入力モダリティ(テキストや画像など)を理由付けする複雑なデータベースのようなクエリに答えることができる新しいフレームワーク、Multimodal Neural Databases(MMNDBs)を提案する。
– この論文では、この要件を満たす最初のアーキテクチャを提供し、いくつかのベースラインでテストし、現在利用可能なモデルの制限を示す。
– 結果は、未加工のデータを処理し、未来の研究の道を開く新しい技術の可能性を示しており、実験を複製するためのコードは、で公開される。


The rise in loosely-structured data available through text, images, and other modalities has called for new ways of querying them. Multimedia Information Retrieval has filled this gap and has witnessed exciting progress in recent years. Tasks such as search and retrieval of extensive multimedia archives have undergone massive performance improvements, driven to a large extent by recent developments in multimodal deep learning. However, methods in this field remain limited in the kinds of queries they support and, in particular, their inability to answer database-like queries. For this reason, inspired by recent work on neural databases, we propose a new framework, which we name Multimodal Neural Databases (MMNDBs). MMNDBs can answer complex database-like queries that involve reasoning over different input modalities, such as text and images, at scale. In this paper, we present the first architecture able to fulfill this set of requirements and test it with several baselines, showing the limitations of currently available models. The results show the potential of these new techniques to process unstructured data coming from different modalities, paving the way for future research in the area. Code to replicate the experiments will be released at


著者 Giovanni Trappolini,Andrea Santilli,Emanuele Rodolà,Alon Halevy,Fabrizio Silvestri
発行日 2023-05-02 14:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.CV, cs.DB, cs.IR, cs.MM パーマリンク