Retrieval-based Text Selection for Addressing Class-Imbalanced Data in Classification

要約

この論文は、人的資源の制約により注釈の数に制限がある場合に、検索手法を使用してテキスト分類において注釈を付けるためのテキストのセットを選択する問題を扱います。
対処される追加の課題は、深刻なクラスの不均衡を反映して、少数の肯定的なインスタンスを持つバイナリ カテゴリを扱うことです。
注釈が長期間にわたって発生するこの状況では、前の注釈を次のセットの選択に導きながら、注釈を付けるテキストの選択をバッチで行うことができます。
これらの課題に対処するために、この論文では、SHAP を活用して Elasticsearch とセマンティック検索用の高品質なクエリのセットを構築し、クラスの不均衡を解消するのに役立つアノテーションに最適なテキストのセットを特定することを提案しています。
このアプローチは、肥満と糖尿病の管理を支援することを目的とした研究の参加者によって構築された、起こり得る将来の出来事を説明する一連の合図テキストでテストされます。
注釈用の小さなテキストのセットを選択し、高品質の分類器を構築するための効果的な方法を紹介します。
ベクトル検索、セマンティック検索、機械学習分類器を統合して、優れたソリューションを生み出します。
私たちの実験では、二項分類における少数派クラスの F1 スコアが改善されたことが実証されています。

要約(オリジナル)

This paper addresses the problem of selecting of a set of texts for annotation in text classification using retrieval methods when there are limits on the number of annotations due to constraints on human resources. An additional challenge addressed is dealing with binary categories that have a small number of positive instances, reflecting severe class imbalance. In our situation, where annotation occurs over a long time period, the selection of texts to be annotated can be made in batches, with previous annotations guiding the choice of the next set. To address these challenges, the paper proposes leveraging SHAP to construct a quality set of queries for Elasticsearch and semantic search, to try to identify optimal sets of texts for annotation that will help with class imbalance. The approach is tested on sets of cue texts describing possible future events, constructed by participants involved in studies aimed to help with the management of obesity and diabetes. We introduce an effective method for selecting a small set of texts for annotation and building high-quality classifiers. We integrate vector search, semantic search, and machine learning classifiers to yield a good solution. Our experiments demonstrate improved F1 scores for the minority classes in binary classification.

arxiv情報

著者 Sareh Ahmadi,Aditya Shah,Edward Fox
発行日 2023-11-09 19:39:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク