Towards Model-Based Data Acquisition for Subjective Multi-Task NLP Problems

要約

人間によって注釈が付けられたデータは、問題の特殊性を説明することによって知識の源となり、トレーニングされたモデルの意思決定プロセスを促進します。
残念ながら、不快感や感情の検出などの主観的な自然言語処理 (NLP) の問題に対するアノテーション プロセスは、多くの場合非常に高価で時間がかかります。
避けられないリスクの 1 つは、特定のタスクに関する追加の知識を提供しないアノテーションに資金とアノテーターの労力の一部を費やすことです。
これらのコストを最小限に抑えるために、マルチタスク シナリオでテキストごとに個別に注釈を付けたタスクの選択を可能にする、新しいモデルベースのアプローチを提案します。
3 つのデータセット、数十の NLP タスク、および数千のアノテーションに対して実行された実験は、私たちの方法により、知識の損失が無視できる程度にアノテーションの数を最大 40% 削減できることを示しています。
この結果は、アノテーション タスクの主観に応じて、モデルを効率的にトレーニングするために必要な多様な量のデータを収集する必要性も強調しています。
また、シングルタスクおよびマルチタスクのシナリオでモデルを評価することにより、主観的なタスク間の関係を測定することにも焦点を当てました。
さらに、一部のデータセットでは、モデルによって予測されたラベルのみをトレーニングすることで、自己教師あり学習の正則化手法としてのタスク選択の効率が向上しました。

要約(オリジナル)

Data annotated by humans is a source of knowledge by describing the peculiarities of the problem and therefore fueling the decision process of the trained model. Unfortunately, the annotation process for subjective natural language processing (NLP) problems like offensiveness or emotion detection is often very expensive and time-consuming. One of the inevitable risks is to spend some of the funds and annotator effort on annotations that do not provide any additional knowledge about the specific task. To minimize these costs, we propose a new model-based approach that allows the selection of tasks annotated individually for each text in a multi-task scenario. The experiments carried out on three datasets, dozens of NLP tasks, and thousands of annotations show that our method allows up to 40% reduction in the number of annotations with negligible loss of knowledge. The results also emphasize the need to collect a diverse amount of data required to efficiently train a model, depending on the subjectivity of the annotation task. We also focused on measuring the relation between subjective tasks by evaluating the model in single-task and multi-task scenarios. Moreover, for some datasets, training only on the labels predicted by our model improved the efficiency of task selection as a self-supervised learning regularization technique.

arxiv情報

著者 Kamil Kanclerz,Julita Bielaniewicz,Marcin Gruza,Jan Kocon,Stanisław Woźniak,Przemysław Kazienko
発行日 2023-12-13 15:03:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク