人間によるラベル付けはますます高価で時間がかかるようになるため、最近の研究では、合成トレーニング データの生成、アクティブ ラーニング、ハイブリッド ラベリングなど、アノテーションを高速化し、コストと人間の作業負荷を削減するための複数の戦略が開発されました。
さらに、ヒューマン アノテーターの管理と最終データセットの品質管理のベスト プラクティスについても説明します。
このチュートリアルは、データ ラベリング プロジェクトの最適化に携わっている、またはそれに興味がある、研究と業界の両方の背景を持つ NLP 実践者を対象に設計されています。
Training and deploying machine learning models relies on a large amount of human-annotated data. As human labeling becomes increasingly expensive and time-consuming, recent research has developed multiple strategies to speed up annotation and reduce costs and human workload: generating synthetic training data, active learning, and hybrid labeling. This tutorial is oriented toward practical applications: we will present the basics of each strategy, highlight their benefits and limitations, and discuss in detail real-life case studies. Additionally, we will walk through best practices for managing human annotators and controlling the quality of the final dataset. The tutorial includes a hands-on workshop, where attendees will be guided in implementing a hybrid annotation setup. This tutorial is designed for NLP practitioners from both research and industry backgrounds who are involved in or interested in optimizing data labeling projects.
著者 | Ekaterina Artemova,Akim Tsvigun,Dominik Schlechtweg,Natalia Fedorova,Sergei Tilga,Konstantin Chernyshev,Boris Obmoroshev |
発行日 | 2024-12-23 18:09:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google