要約
機械学習モデルのトレーニングと展開は、大量の人間が解決したデータに依存しています。
人間のラベル付けがますます高価で時間がかかるにつれて、最近の研究は、注釈を高速化し、コストと人間のワークロードを削減するための複数の戦略を開発しました。合成トレーニングデータの生成、アクティブ学習、およびハイブリッドラベル付けです。
このチュートリアルは、実用的なアプリケーションに向けられています。各戦略の基本を提示し、その利点と制限を強調し、実際のケーススタディを詳細に議論します。
さらに、人間のアノテーターを管理し、最終データセットの品質を制御するためのベストプラクティスを進めます。
このチュートリアルには、ハイブリッド注釈のセットアップの実装に参加者がガイドされる実践的なワークショップが含まれています。
このチュートリアルは、データラベリングプロジェクトの最適化に関与している、または関心のある研究と業界の両方のバックグラウンドのNLP実践者向けに設計されています。
要約(オリジナル)
Training and deploying machine learning models relies on a large amount of human-annotated data. As human labeling becomes increasingly expensive and time-consuming, recent research has developed multiple strategies to speed up annotation and reduce costs and human workload: generating synthetic training data, active learning, and hybrid labeling. This tutorial is oriented toward practical applications: we will present the basics of each strategy, highlight their benefits and limitations, and discuss in detail real-life case studies. Additionally, we will walk through best practices for managing human annotators and controlling the quality of the final dataset. The tutorial includes a hands-on workshop, where attendees will be guided in implementing a hybrid annotation setup. This tutorial is designed for NLP practitioners from both research and industry backgrounds who are involved in or interested in optimizing data labeling projects.
arxiv情報
著者 | Ekaterina Artemova,Akim Tsvigun,Dominik Schlechtweg,Natalia Fedorova,Konstantin Chernyshev,Sergei Tilga,Boris Obmoroshev |
発行日 | 2025-01-27 16:38:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google