Column Type Annotation using ChatGPT

要約

列タイプの注釈は、リレーショナル テーブルの列に、各列に含まれる値のセマンティック タイプの注釈を付けるタスクです。
列タイプのアノテーションは、データ レイクのコンテキストでのデータ検索と統合のための重要な前処理ステップです。
最先端の列タイプのアノテーション方法は、テーブルの列をナレッジ グラフのプロパティに一致させるか、列タイプのアノテーション タスク用に BERT などの事前トレーニングされた言語モデルを微調整することに依存します。
この作業では、別のアプローチを採用し、列タイプの注釈に ChatGPT を使用することを検討します。
ゼロショットおよび少数ショット設定でさまざまなプロンプトデザインを評価し、モデルにタスク定義と詳細な指示を提供して実験します。
さらに、テーブルに記述されているエンティティのクラスを最初に決定し、このクラスに応じて、語彙全体の関連するサブセットのみを使用して列に注釈を付けるように ChatGPT に要求する 2 段階のテーブル注釈パイプラインを実装します。
ChatGPT は、命令と 2 ステップのパイプラインを使用して、ゼロショットおよびワンショットのセットアップで 85% 以上の F1 スコアを達成します。
同様の F1 スコアに到達するには、RoBERTa モデルを 300 個のサンプルで微調整する必要があります。
この比較は、タスク固有のデモンストレーションがまったく行われていないか、最小限の量しか行われていない場合でも、ChatGPT が列タイプの注釈タスクで競合する結果を提供できることを示しています。

要約(オリジナル)

Column type annotation is the task of annotating the columns of a relational table with the semantic type of the values contained in each column. Column type annotation is a crucial pre-processing step for data search and integration in the context of data lakes. State-of-the-art column type annotation methods either rely on matching table columns to properties of a knowledge graph or fine-tune pre-trained language models such as BERT for the column type annotation task. In this work, we take a different approach and explore using ChatGPT for column type annotation. We evaluate different prompt designs in zero- and few-shot settings and experiment with providing task definitions and detailed instructions to the model. We further implement a two-step table annotation pipeline which first determines the class of the entities described in the table and depending on this class asks ChatGPT to annotate columns using only the relevant subset of the overall vocabulary. Using instructions as well as the two-step pipeline, ChatGPT reaches F1 scores of over 85% in zero- and one-shot setups. To reach a similar F1 score a RoBERTa model needs to be fine-tuned with 300 examples. This comparison shows that ChatGPT is able deliver competitive results for the column type annotation task given no or only a minimal amount of task-specific demonstrations.

arxiv情報

著者 Keti Korini,Christian Bizer
発行日 2023-06-01 14:40:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク