要約
セマンティック列タイプ アノテーション (CTA) に対する既存の深層学習アプローチには、重要な欠点があります。トレーニング時に固定されるセマンティック タイプに依存しています。
タイプごとに多数のトレーニング サンプルが必要となり、実行時の推論コストが高くなります。
また、型が一定のままであっても、新しいデータセットで評価するとパフォーマンスが低下する可能性があります。
大規模な言語モデルは、幅広いタスクに対して強力なゼロショット分類パフォーマンスを示しており、このホワイト ペーパーでは、CTA へのその使用法を検討します。
ArcheType を紹介します。これは、コンテキスト サンプリング、プロンプト シリアル化、モデル クエリ、およびラベルの再マッピングのためのシンプルで実用的な方法であり、大規模な言語モデルが完全にゼロショットで CTA 問題を解決できるようにします。
私たちは、メソッドの各コンポーネントを個別に除去し、コンテキスト サンプリングとラベルの再マッピングの改善により最も一貫したゲインが得られることを確立しました。
ArcheType は、ゼロショット CTA ベンチマーク (この文書とともにリリースされる 3 つの新しいドメイン固有ベンチマークを含む) で新しい最先端のパフォーマンスを確立し、従来の CTA 技術と組み合わせて使用すると、SOTA DoDuo を上回るパフォーマンスを発揮します。
微調整された SOTAB ベンチマークのモデル。
私たちのコードは https://github.com/penfever/ArcheType で入手できます。
要約(オリジナル)
Existing deep-learning approaches to semantic column type annotation (CTA) have important shortcomings: they rely on semantic types which are fixed at training time; require a large number of training samples per type and incur large run-time inference costs; and their performance can degrade when evaluated on novel datasets, even when types remain constant. Large language models have exhibited strong zero-shot classification performance on a wide range of tasks and in this paper we explore their use for CTA. We introduce ArcheType, a simple, practical method for context sampling, prompt serialization, model querying, and label remapping, which enables large language models to solve CTA problems in a fully zero-shot manner. We ablate each component of our method separately, and establish that improvements to context sampling and label remapping provide the most consistent gains. ArcheType establishes a new state-of-the-art performance on zero-shot CTA benchmarks (including three new domain-specific benchmarks which we release along with this paper), and when used in conjunction with classical CTA techniques, it outperforms a SOTA DoDuo model on the fine-tuned SOTAB benchmark. Our code is available at https://github.com/penfever/ArcheType.
arxiv情報
著者 | Benjamin Feuer,Yurong Liu,Chinmay Hegde,Juliana Freire |
発行日 | 2023-11-06 13:16:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google