Towards Multi-Modal DBMSs for Seamless Querying of Texts and Tables

要約

【タイトル】テキストとテーブルのシームレスなクエリングのためのマルチモーダルDBMSへ向けて

【要約】

– マルチモーダルデータベース(MMDB)は、SQLを使ってテキストとテーブルをシームレスにクエリできる新しいデータベースシステムのクラスである。
– MMDBでは、最近の大規模言語モデル(GPT-3など)の進歩に基づくマルチモーダル演算子(MMOps)によって、SQLを使用してテキストデータをシームレスにクエリすることができるようにする。
– MMOpsの主要なアイデアは、データを手動で変換する必要がないという点であり、テキストコレクションをテーブルとして扱うことができる。
– 評価によると、MMDBプロトタイプは、テキストからテーブルへのアプローチなどの最先端の手法よりも精度とパフォーマンスが優れており、未知のテキストコレクションのモデルを微調整するためのトレーニングデータも大幅に少なくて済む。

要約(オリジナル)

In this paper, we propose Multi-Modal Databases (MMDBs), which is a new class of database systems that can seamlessly query text and tables using SQL. To enable seamless querying of textual data using SQL in an MMDB, we propose to extend relational databases with so-called multi-modal operators (MMOps) which are based on the advances of recent large language models such as GPT-3. The main idea of MMOps is that they allow text collections to be treated as tables without the need to manually transform the data. As we show in our evaluation, our MMDB prototype can not only outperform state-of-the-art approaches such as text-to-table in terms of accuracy and performance but it also requires significantly less training data to fine-tune the model for an unseen text collection.

arxiv情報

著者 Matthias Urban,Carsten Binnig
発行日 2023-04-26 13:31:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.DB パーマリンク