要約
この論文では、固有表現認識 (NER) のための大規模言語モデルを使用した少数ショット プロンプトを評価します。
従来の NER システムは、大量のラベル付きデータセットに依存しており、取得にはコストと時間がかかります。
フューショット プロンプトまたはコンテキスト内学習により、モデルは最小限の例でエンティティを認識できます。
私たちは、NER タスクで GPT-4 などの最先端のモデルを評価し、その数ショットのパフォーマンスを完全に監視されたベンチマークと比較します。
結果は、パフォーマンスのギャップはあるものの、大規模なモデルはデータが非常に限られた新しいエンティティ タイプとドメインに適応する点で優れていることを示しています。
また、プロンプト エンジニアリング、ガイド付き出力形式、コンテキストの長さがパフォーマンスに及ぼす影響についても調査します。
この研究は、Few-Shot Learning が大規模なラベル付きデータセットの必要性を減らし、NER のスケーラビリティとアクセシビリティを向上させる可能性を強調しています。
要約(オリジナル)
This paper evaluates Few-Shot Prompting with Large Language Models for Named Entity Recognition (NER). Traditional NER systems rely on extensive labeled datasets, which are costly and time-consuming to obtain. Few-Shot Prompting or in-context learning enables models to recognize entities with minimal examples. We assess state-of-the-art models like GPT-4 in NER tasks, comparing their few-shot performance to fully supervised benchmarks. Results show that while there is a performance gap, large models excel in adapting to new entity types and domains with very limited data. We also explore the effects of prompt engineering, guided output format and context length on performance. This study underscores Few-Shot Learning’s potential to reduce the need for large labeled datasets, enhancing NER scalability and accessibility.
arxiv情報
著者 | Hédi Zhegidi,Ludovic Moncla |
発行日 | 2024-08-28 13:42:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google