Probabilistic Linguistic Knowledge and Token-level Text Augmentation

要約

本稿では、トークン・レベルのテキスト補強の有効性と、言語学的動機に基づく評価の文脈における確率的言語知識の役割を調査する。REDAとREDA$_{NG}$という2つのテキスト補強プログラムを開発し、どちらも5つのトークンレベルのテキスト編集操作を実装した:同義語置換(SR)、ランダムスワップ(RS)、ランダム挿入(RI)、ランダム削除(RD)、ランダム混合(RM)である。REDA$_{NG}$は、事前に学習された$n$-gram言語モデルを活用し、REDAの出力から最も可能性の高い拡張テキストを選択する。中国語と英語のバイナリ質問マッチング分類タスクにおいて、包括的できめ細かい実験を行った。その結果、調査対象とした5つのトークン・レベルのテキスト補強技術の一般的な有効性は、一緒に適用しても別々に適用しても、また変換器を含む様々な一般的な分類モデルの種類に関係なく、強く反証された。さらに、確率的言語知識の役割は最小であることがわかった。

要約(オリジナル)

This paper investigates the effectiveness of token-level text augmentation and the role of probabilistic linguistic knowledge within a linguistically-motivated evaluation context. Two text augmentation programs, REDA and REDA$_{NG}$, were developed, both implementing five token-level text editing operations: Synonym Replacement (SR), Random Swap (RS), Random Insertion (RI), Random Deletion (RD), and Random Mix (RM). REDA$_{NG}$ leverages pretrained $n$-gram language models to select the most likely augmented texts from REDA’s output. Comprehensive and fine-grained experiments were conducted on a binary question matching classification task in both Chinese and English. The results strongly refute the general effectiveness of the five token-level text augmentation techniques under investigation, whether applied together or separately, and irrespective of various common classification model types used, including transformers. Furthermore, the role of probabilistic linguistic knowledge is found to be minimal.

arxiv情報

著者 Zhengxiang Wang
発行日 2023-07-03 05:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク