SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization

要約

自然言語処理 (NLP) の多くのデータセットには、注釈エラーが含まれる場合があります。
研究者は、データセット内のエラーによる悪影響を自動的に軽減する方法の開発を試みてきました。
ただし、既存の方法では、エラーを検出するために多くのトレーニング済みモデルが必要となるため、時間がかかります。
誤り検出時間を短縮するための新しい方法を提案する。
具体的には、サブワード正則化と呼ばれるトークン化手法を使用して、エラーの検出に使用される疑似多重モデルを作成します。
提案手法であるSubRegWeighは、既存手法に比べて4~5倍高速にアノテーションの重み付けを行うことができます。
さらに、SubRegWeigh により、文書分類タスクと固有表現認識タスクの両方のパフォーマンスが向上しました。
擬似不正解ラベルを用いた実験では、擬似不正解ラベルが適切に検出されました。

要約(オリジナル)

Many datasets of natural language processing (NLP) sometimes include annotation errors. Researchers have attempted to develop methods to reduce the adverse effect of errors in datasets automatically. However, an existing method is time-consuming because it requires many trained models to detect errors. We propose a novel method to reduce the time of error detection. Specifically, we use a tokenization technique called subword regularization to create pseudo-multiple models which are used to detect errors. Our proposed method, SubRegWeigh, can perform annotation weighting four to five times faster than the existing method. Additionally, SubRegWeigh improved performance in both document classification and named entity recognition tasks. In experiments with pseudo-incorrect labels, pseudo-incorrect labels were adequately detected.

arxiv情報

著者 Kohei Tsuji,Tatsuya Hiraoka,Yuchang Cheng,Tomoya Iwakura
発行日 2024-09-10 04:48:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク