要約
セマンティック列タイプ アノテーション (CTA) に対する既存の深層学習アプローチには、重要な欠点があります。トレーニング時に固定されるセマンティック タイプに依存しています。
タイプごとに多数のトレーニング サンプルが必要となり、実行時の推論コストが高くなります。
また、型が一定のままであっても、新しいデータセットで評価するとパフォーマンスが低下する可能性があります。
大規模な言語モデルは、幅広いタスクに対して強力なゼロショット分類パフォーマンスを示しており、このホワイト ペーパーでは、CTA へのその使用法を検討します。
ArcheType を紹介します。これは、コンテキスト サンプリング、プロンプト シリアル化、モデル クエリ、およびラベルの再マッピングのためのシンプルで実用的な方法です。これにより、大規模な言語モデルが完全にゼロショットの方法で列タイプの注釈の問題を解決できるようになります。
私たちは、メソッドの各コンポーネントを個別に除去し、コンテキスト サンプリングとラベルの再マッピングの改善により最も一貫したゲインが得られることを確立しました。
ArcheType は、ゼロショット CTA と微調整された CTA の両方で新しい最先端のパフォーマンスを確立します。これには、結果を再現するためのコードとともに https://github.com でリリースされる 3 つの新しいドメイン固有のベンチマークが含まれます。
/ペンフィーバー/ArcheType。
要約(オリジナル)
Existing deep-learning approaches to semantic column type annotation (CTA) have important shortcomings: they rely on semantic types which are fixed at training time; require a large number of training samples per type and incur large run-time inference costs; and their performance can degrade when evaluated on novel datasets, even when types remain constant. Large language models have exhibited strong zero-shot classification performance on a wide range of tasks and in this paper we explore their use for CTA. We introduce ArcheType, a simple, practical method for context sampling, prompt serialization, model querying, and label remapping, which enables large language models to solve column type annotation problems in a fully zero-shot manner. We ablate each component of our method separately, and establish that improvements to context sampling and label remapping provide the most consistent gains. ArcheType establishes new state-of-the-art performance on both zero-shot and fine-tuned CTA, including three new domain-specific benchmarks, which we release, along with the code to reproduce our results at https://github.com/penfever/ArcheType.
arxiv情報
著者 | Benjamin Feuer,Yurong Liu,Chinmay Hegde,Juliana Freire |
発行日 | 2023-10-27 15:31:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google