Towards Multi-Modal DBMSs for Seamless Querying of Texts and Tables




– Multi-Modal Databases(MMDBs)と呼ばれる新しいデータベースシステムを提案する。
– MMDBsはSQLを使ってテキストと表をシームレスにクエリングできるようにする。
– MMDBにおけるSQLを使用したテキストデータの検索をシームレスにするために、最近の大規模な言語モデル(例えば、GPT-3)の進歩に基づくマルチモーダル演算子(MMOps)を提案する。
– MMOpsの主なアイデアは、テキストコレクションをデータの手動変換なしにテーブルとして扱えることである。
– 評価において、私たちのMMDBのプロトタイプは、テキストからテーブルへの変換などの最新のアプローチを上回る、精度や性能の面で改善が見られ、未知のテキストコレクションのモデルの微調整に必要なトレーニングデータもかなり少なくて済むことを示している。


In this paper, we propose Multi-Modal Databases (MMDBs), which is a new class of database systems that can seamlessly query text and tables using SQL. To enable seamless querying of textual data using SQL in an MMDB, we propose to extend relational databases with so-called multi-modal operators (MMOps) which are based on the advances of recent large language models such as GPT-3. The main idea of MMOps is that they allow text collections to be treated as tables without the need to manually transform the data. As we show in our evaluation, our MMDB prototype can not only outperform state-of-the-art approaches such as text-to-table in terms of accuracy and performance but it also requires significantly less training data to fine-tune the model for an unseen text collection.


著者 Matthias Urban,Carsten Binnig
発行日 2023-04-28 14:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL, cs.DB パーマリンク