Native Language Identification with Big Bird Embeddings

要約

母国語識別 (NLI) は、別の言語での執筆に基づいて著者の母国語を分類することを目的としています。
歴史的に、このタスクは時間のかかる言語特徴量エンジニアリングに大きく依存しており、トランスフォーマーベースの NLI モデルはこれまでのところ、効果的で実用的な代替手段を提供できていません。
現在の研究では、入力サイズが制限要因であるかどうかを調査し、Big Bird 埋め込みを使用してトレーニングされた分類器が、Reddit-L2 データセットで言語特徴量エンジニアリング モデルよりも大幅に優れていることを示しています。
さらに、入力の長さの依存関係についてのさらなる洞察を提供し、一貫したサンプル外パフォーマンスを示し、埋め込み空間を定性的に分析します。
この方法の有効性と計算効率を考慮すると、これが将来の NLI 作業に有望な手段を提供すると考えられます。

要約(オリジナル)

Native Language Identification (NLI) intends to classify an author’s native language based on their writing in another language. Historically, the task has heavily relied on time-consuming linguistic feature engineering, and transformer-based NLI models have thus far failed to offer effective, practical alternatives. The current work investigates if input size is a limiting factor, and shows that classifiers trained using Big Bird embeddings outperform linguistic feature engineering models by a large margin on the Reddit-L2 dataset. Additionally, we provide further insight into input length dependencies, show consistent out-of-sample performance, and qualitatively analyze the embedding space. Given the effectiveness and computational efficiency of this method, we believe it offers a promising avenue for future NLI work.

arxiv情報

著者 Sergey Kramp,Giovanni Cassani,Chris Emmery
発行日 2023-09-13 12:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク