Probabilistic Linguistic Knowledge and Token-level Text Augmentation

要約

この論文では、トークンレベルのテキスト拡張の​​有効性と、言語を動機とした評価コンテキストにおける確率的言語知識の役割を調査します。
REDA と REDA$_{NG}$ という 2 つのテキスト拡張プログラムが開発され、どちらも 5 つのトークンレベルのテキスト編集操作を実装しました: 同義語置換 (SR)、ランダム交換 (RS)、ランダム挿入 (RI)、ランダム削除 (RD)
)、およびランダム ミックス (RM)。
REDA$_{NG}$ は、事前トレーニングされた $n$-gram 言語モデルを利用して、REDA の出力から最も可能性の高い拡張テキストを選択します。
包括的で詳細な実験が、中国語と英語の両方で二項質問マッチング分類タスクに対して実施されました。
この結果は、調査中の 5 つのトークンレベルのテキスト拡張技術の一般的な有効性を、一緒に適用するか個別に適用するかにかかわらず、また、トランスフォーマーを含むさまざまな一般的な分類モデルの種類に関係なく、強く否定します。
さらに、確率的な言語知識の役割は最小限であることがわかります。

要約(オリジナル)

This paper investigates the effectiveness of token-level text augmentation and the role of probabilistic linguistic knowledge within a linguistically-motivated evaluation context. Two text augmentation programs, REDA and REDA$_{NG}$, were developed, both implementing five token-level text editing operations: Synonym Replacement (SR), Random Swap (RS), Random Insertion (RI), Random Deletion (RD), and Random Mix (RM). REDA$_{NG}$ leverages pretrained $n$-gram language models to select the most likely augmented texts from REDA’s output. Comprehensive and fine-grained experiments were conducted on a binary question matching classification task in both Chinese and English. The results strongly refute the general effectiveness of the five token-level text augmentation techniques under investigation, whether applied together or separately, and irrespective of various common classification model types used, including transformers. Furthermore, the role of probabilistic linguistic knowledge is found to be minimal.

arxiv情報

著者 Zhengxiang Wang
発行日 2023-06-29 03:02:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク