Batch Aggregation: An Approach to Enhance Text Classification with Correlated Augmented Data

要約

自然言語処理モデルは、特にドメイン固有の領域、例えば臨床試験において、ラベル付きデータが限られているため、課題に直面することがよくあります。
これを克服するために、テキストの増強技術は、一般に、元の入力データを保存された人工データに変換することにより、サンプルサイズを増やすために使用されます。
ただし、従来のテキスト分類方法は、拡張されたテキストの関係を無視し、それらを分類エラーを導入する可能性のある独立したサンプルとして扱います。
したがって、「バッチ集約」(BAGG)と呼ばれる新しいアプローチを提案します。このアプローチは、相関テキストから生じる追加のレイヤーを組み込むことにより、増強を通じて生成されたテキスト入力の依存性を明示的にモデル化します。
異なるドメインで複数のベンチマークデータセットを調査することで、BAGGが分類の精度を改善できることがわかりました。
また、BAGGによるパフォーマンスの増加は、ドメイン固有のデータセットではより明白であり、最大10〜29%の精度の向上があることがわかりました。
ベンチマークデータの分析を通じて、提案された方法は、従来の手法の制限に対処し、テキスト分類タスクの堅牢性を向上させます。
私たちの結果は、BAGGがより堅牢な結果を提供し、トレーニングデータが制限されているときに従来のアプローチよりも優れていることを示しています。

要約(オリジナル)

Natural language processing models often face challenges due to limited labeled data, especially in domain specific areas, e.g., clinical trials. To overcome this, text augmentation techniques are commonly used to increases sample size by transforming the original input data into artificial ones with the label preserved. However, traditional text classification methods ignores the relationship between augmented texts and treats them as independent samples which may introduce classification error. Therefore, we propose a novel approach called ‘Batch Aggregation’ (BAGG) which explicitly models the dependence of text inputs generated through augmentation by incorporating an additional layer that aggregates results from correlated texts. Through studying multiple benchmark data sets across different domains, we found that BAGG can improve classification accuracy. We also found that the increase of performance with BAGG is more obvious in domain specific data sets, with accuracy improvements of up to 10-29%. Through the analysis of benchmark data, the proposed method addresses limitations of traditional techniques and improves robustness in text classification tasks. Our result demonstrates that BAGG offers more robust results and outperforms traditional approaches when training data is limited.

arxiv情報

著者 Charco Hui,Yalu Wen
発行日 2025-04-07 12:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク