Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention

要約

シンド語の単語の分割は、スペースの省略と挿入の問題があるため、困難な作業です。
シンド語自体がこの複雑さをさらに高めます。
これは筆記体であり、単語の境界に関係なく、固有の結合特性と非結合特性を持つ文字で構成されます。
既存のシンド語語の分割方法は、手作りの特徴の設計と組み合わせに依存しています。
ただし、これらの方法には、語彙外の単語の処理の難しさ、他の言語に対する堅牢性の制限、大量のノイズの多いテキストや生のテキストの非効率性などの制限があります。
対照的に、ニューラル ネットワーク ベースのモデルは、事前知識を必要とせずに単語境界情報を自動的に取得できます。
この論文では、シーケンスのラベル付けタスクとして単語の分割に取り組むサブワードガイド付きニューラル単語セグメンター (SGNWS) を提案します。
SGNWS モデルには、双方向長期短期記憶エンコーダ、位置認識自己注意、条件付きランダム フィールドによるサブワード表現学習が組み込まれています。
私たちの実証結果は、SGNWS モデルが 6 つのデータセット上でシンド語の単語セグメンテーションにおいて最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Sindhi word segmentation is a challenging task due to space omission and insertion issues. The Sindhi language itself adds to this complexity. It’s cursive and consists of characters with inherent joining and non-joining properties, independent of word boundaries. Existing Sindhi word segmentation methods rely on designing and combining hand-crafted features. However, these methods have limitations, such as difficulty handling out-of-vocabulary words, limited robustness for other languages, and inefficiency with large amounts of noisy or raw text. Neural network-based models, in contrast, can automatically capture word boundary information without requiring prior knowledge. In this paper, we propose a Subword-Guided Neural Word Segmenter (SGNWS) that addresses word segmentation as a sequence labeling task. The SGNWS model incorporates subword representation learning through a bidirectional long short-term memory encoder, position-aware self-attention, and a conditional random field. Our empirical results demonstrate that the SGNWS model achieves state-of-the-art performance in Sindhi word segmentation on six datasets.

arxiv情報

著者 Wazir Ali,Jay Kumar,Saifullah Tumrani,Redhwan Nour,Adeeb Noor,Zenglin Xu
発行日 2024-09-04 09:44:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク