The Impact of Subword Pooling Strategy for Cross-lingual Event Detection

要約

事前にトレーニングされた多言語モデル (mBERT、XLM-RoBERTa など) は、ゼロ ショットのクロスリンガル情報抽出の最先端技術を大幅に進歩させました。
これらの言語モデルは、単語をより小さな構成サブワードに分割する単語セグメンテーション手法に広く依存しています。
したがって、すべての単語ラベル付けタスク (名前付きエンティティの認識、イベント検出など) では、サブワード表現を入力として受け取り、単語全体の表現を出力するプーリング戦略が必要です。
動機付けの例としてクロスリンガル イベント検出のタスクを取り上げて、プーリング戦略の選択がターゲット言語のパフォーマンスに大きな影響を与える可能性があることを示します。
たとえば、英語でトレーニングし、ACE タスクでアラビア語でテストする場合、プーリング戦略に応じて、パフォーマンスは最大 16 絶対 $f_{1}$ ポイント異なります。
多様な多言語データセットで、9 つの言語にわたる 5 つの異なるプーリング戦略を使用して分析を実行します。
構成全体で、単語全体を表すために最初のサブワードのみを取得するという正規の戦略は、通常、最適ではないことがわかります。
一方、アテンション プーリングは、最適な戦略または最適な戦略に近いことにより、言語およびデータセットのバリエーションに対して堅牢であることを示しています。
再現性を確保するために、https://github.com/isi-boston/ed-pooling でコードを公開しています。

要約(オリジナル)

Pre-trained multilingual language models (e.g., mBERT, XLM-RoBERTa) have significantly advanced the state-of-the-art for zero-shot cross-lingual information extraction. These language models ubiquitously rely on word segmentation techniques that break a word into smaller constituent subwords. Therefore, all word labeling tasks (e.g. named entity recognition, event detection, etc.), necessitate a pooling strategy that takes the subword representations as input and outputs a representation for the entire word. Taking the task of cross-lingual event detection as a motivating example, we show that the choice of pooling strategy can have a significant impact on the target language performance. For example, the performance varies by up to 16 absolute $f_{1}$ points depending on the pooling strategy when training in English and testing in Arabic on the ACE task. We carry out our analysis with five different pooling strategies across nine languages in diverse multi-lingual datasets. Across configurations, we find that the canonical strategy of taking just the first subword to represent the entire word is usually sub-optimal. On the other hand, we show that attention pooling is robust to language and dataset variations by being either the best or close to the optimal strategy. For reproducibility, we make our code available at https://github.com/isi-boston/ed-pooling.

arxiv情報

著者 Shantanu Agarwal,Steven Fincke,Chris Jenkins,Scott Miller,Elizabeth Boschee
発行日 2023-02-22 13:33:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク