Using Contextual Information for Sentence-level Morpheme Segmentation

要約

形態素セグメンテーションにおける最近の進歩では、主に単語レベルのセグメンテーションが重視され、文内の文脈上の関連性が無視されることがよくあります。
この研究では、形態素セグメンテーション タスクをシーケンス間の問題として再定義し、個々の単語を分離するのではなく文全体を入力として扱います。
私たちの調査結果では、多言語モデルが単言語モデルと比較して常に優れたパフォーマンスを示していることが明らかになりました。
私たちのモデルは現在の最先端のパフォーマンスを超えることはありませんでしたが、高リソース言語では同等の有効性を実証しましたが、低リソース言語のシナリオでは限界があることが明らかになりました。

要約(オリジナル)

Recent advancements in morpheme segmentation primarily emphasize word-level segmentation, often neglecting the contextual relevance within the sentence. In this study, we redefine the morpheme segmentation task as a sequence-to-sequence problem, treating the entire sentence as input rather than isolating individual words. Our findings reveal that the multilingual model consistently exhibits superior performance compared to monolingual counterparts. While our model did not surpass the performance of the current state-of-the-art, it demonstrated comparable efficacy with high-resource languages while revealing limitations in low-resource language scenarios.

arxiv情報

著者 Prabin Bhandari,Abhishek Paudel
発行日 2024-05-14 17:22:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク