要約
リレーショナルテーブルでの列のセマンティクスを理解することは、豊富なデータ検索を提供するために、データ湖をインデックス化するための重要な前処理ステップです。
そのような理解を確立するためのアプローチは、特定の語彙からの用語でテーブル列に注釈を付けることが目標である列タイプの注釈(CTA)です。
このペーパーでは、LLMベースの列タイプの注釈のさまざまな知識生成と自己修復戦略を実験的に比較します。
戦略には、LLMを使用して項定義を生成し、用語定義のエラーベースの改良、自己修正、および例と用語定義を使用した微調整が含まれます。
これらの戦略を2つの次元に沿って評価します:F1パフォーマンスとして測定された有効性とトークンの使用とコストの観点から測定された効率。
私たちの実験は、最良のパフォーマンス戦略がモデル/データセットの組み合わせに依存することを示しています。
トレーニングデータを使用してラベル定義を生成することは、OpenAIモデルを使用して3つのデータセットのうち2つのコンテキスト学習のデモンストレーションと同じデータを使用してアウトパフォーマンスすることがわかります。
この実験では、LLMSを使用するためにラベル定義を改良すると、12のセットアップ中10枚で平均3.9%F1の増加が、非洗練された定義のパフォーマンスと比較して、F1が3.9%増加することが示されています。
微調整されたモデルと自己修復用語の定義を組み合わせることで、全体的にパフォーマンスが最も高くなり、ゼロショットを上回ると、F1スコアが少なくとも3%微調整されたモデルを促します。
コスト分析では、同様のF1スコアに達している間、プロンプトによる自己修復は、少量のテーブルを注釈付けする必要があるユースケースの方がコスト効率が高くなりますが、微調整は大量のテーブルに対してより効率的です。
要約(オリジナル)
Understanding the semantics of columns in relational tables is an important pre-processing step for indexing data lakes in order to provide rich data search. An approach to establishing such understanding is column type annotation (CTA) where the goal is to annotate table columns with terms from a given vocabulary. This paper experimentally compares different knowledge generation and self-refinement strategies for LLM-based column type annotation. The strategies include using LLMs to generate term definitions, error-based refinement of term definitions, self-correction, and fine-tuning using examples and term definitions. We evaluate these strategies along two dimensions: effectiveness measured as F1 performance and efficiency measured in terms of token usage and cost. Our experiments show that the best performing strategy depends on the model/dataset combination. We find that using training data to generate label definitions outperforms using the same data as demonstrations for in-context learning for two out of three datasets using OpenAI models. The experiments further show that using the LLMs to refine label definitions brings an average increase of 3.9% F1 in 10 out of 12 setups compared to the performance of the non-refined definitions. Combining fine-tuned models with self-refined term definitions results in the overall highest performance, outperforming zero-shot prompting fine-tuned models by at least 3% in F1 score. The costs analysis shows that while reaching similar F1 score, self-refinement via prompting is more cost efficient for use cases requiring smaller amounts of tables to be annotated while fine-tuning is more efficient for large amounts of tables.
arxiv情報
著者 | Keti Korini,Christian Bizer |
発行日 | 2025-03-04 15:32:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google