From Random to Informed Data Selection: A Diversity-Based Approach to Optimize Human Annotation and Few-Shot Learning

要約

自然言語処理における大きな課題は、教師あり学習用の注釈付きデータを取得することです。
オプションとしては、データ アノテーションにクラウドソーシング プラットフォームを使用することができます。
ただし、クラウドソーシングでは、アノテーターの経験、一貫性、偏見に関連する問題が生じます。
別の方法は、ゼロショット手法を使用することですが、これには、少数ショットまたは完全に監視された手法と比較して制限があります。
大規模な言語モデルによって推進された最近の進歩には可能性が示されていますが、データが非常に限られている特殊なドメインに適応するのは困難です。
したがって、最も一般的なアプローチでは、人間自身が一連のデータポイントにランダムに注釈を付けて初期データセットを構築します。
ただし、注釈を付けるデータをランダムにサンプリングすることは、データの特性やモデルの特定のニーズを無視するため、多くの場合非効率的です。
不均衡なデータセットを扱う場合、ランダム サンプリングが多数派のクラスに大きく偏る傾向があり、過剰な注釈付きデータにつながるため、状況はさらに悪化します。
これらの問題に対処するために、この論文は、少数ショット学習用の小さなデータセットを構築するための、情報に基づいた自動データ選択アーキテクチャに貢献します。
私たちの提案は、モデルのパフォーマンスを向上させながら、ヒューマン アノテーション用に選択されるデータの量を最小限に抑え、多様性を最大限に高めます。

要約(オリジナル)

A major challenge in Natural Language Processing is obtaining annotated data for supervised learning. An option is the use of crowdsourcing platforms for data annotation. However, crowdsourcing introduces issues related to the annotator’s experience, consistency, and biases. An alternative is to use zero-shot methods, which in turn have limitations compared to their few-shot or fully supervised counterparts. Recent advancements driven by large language models show potential, but struggle to adapt to specialized domains with severely limited data. The most common approaches therefore involve the human itself randomly annotating a set of datapoints to build initial datasets. But randomly sampling data to be annotated is often inefficient as it ignores the characteristics of the data and the specific needs of the model. The situation worsens when working with imbalanced datasets, as random sampling tends to heavily bias towards the majority classes, leading to excessive annotated data. To address these issues, this paper contributes an automatic and informed data selection architecture to build a small dataset for few-shot learning. Our proposal minimizes the quantity and maximizes diversity of data selected for human annotation, while improving model performance.

arxiv情報

著者 Alexandre Alcoforado,Thomas Palmeira Ferraz,Lucas Hideki Okamura,Israel Campos Fama,Arnold Moya Lavado,Bárbara Dias Bueno,Bruno Veloso,Anna Helena Reali Costa
発行日 2024-01-24 04:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク