要約
機械学習モデルのトレーニングとデプロイは、人間が注釈を付けた大量のデータに依存します。
人間によるラベル付けはますます高価で時間がかかるようになるため、最近の研究では、合成トレーニング データの生成、アクティブ ラーニング、ハイブリッド ラベリングなど、アノテーションを高速化し、コストと人間の作業負荷を削減するための複数の戦略が開発されました。
このチュートリアルは実践的な応用を目的としています。各戦略の基本を示し、その利点と限界を強調し、実際のケーススタディについて詳しく説明します。
さらに、ヒューマン アノテーターの管理と最終データセットの品質管理のベスト プラクティスについても説明します。
このチュートリアルには実践的なワークショップが含まれており、参加者はハイブリッド注釈セットアップの実装について指導されます。
このチュートリアルは、データ ラベリング プロジェクトの最適化に携わっている、またはそれに興味がある、研究と業界の両方の背景を持つ NLP 実践者を対象に設計されています。
要約(オリジナル)
Training and deploying machine learning models relies on a large amount of human-annotated data. As human labeling becomes increasingly expensive and time-consuming, recent research has developed multiple strategies to speed up annotation and reduce costs and human workload: generating synthetic training data, active learning, and hybrid labeling. This tutorial is oriented toward practical applications: we will present the basics of each strategy, highlight their benefits and limitations, and discuss in detail real-life case studies. Additionally, we will walk through best practices for managing human annotators and controlling the quality of the final dataset. The tutorial includes a hands-on workshop, where attendees will be guided in implementing a hybrid annotation setup. This tutorial is designed for NLP practitioners from both research and industry backgrounds who are involved in or interested in optimizing data labeling projects.
arxiv情報
著者 | Ekaterina Artemova,Akim Tsvigun,Dominik Schlechtweg,Natalia Fedorova,Sergei Tilga,Boris Obmoroshev |
発行日 | 2024-11-07 11:51:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google