MRL Parsing Without Tears: The Case of Hebrew

要約

構文解析は、特に LLM が不足しているリソースに乏しい言語では、依然として関係抽出と情報抽出のための重要なツールです。
しかし、形態素豊かな言語 (MRL) では、パーサーが各トークン内の複数の語彙単位を識別する必要があるため、既存のシステムは遅延とセットアップの複雑さに悩まされます。
パイプラインを使用してレイヤーを剥がす場合もあります。最初にセグメンテーション、次に形態タグ付け、次に構文解析を行います。
ただし、以前の層のエラーは前方に伝播されます。
他の人は、結合アーキテクチャを使用して、すべての順列を一度に評価します。
これにより精度は向上しますが、遅いことで有名です。
対照的に、ヘブライ語をテスト ケースとして取り上げ、新しい「反転パイプライン」を提示します。決定は、それぞれが 1 つの特定のタスク専用の専門分類子によってトークン全体のユニットに対して直接行われます。
分類器は互いに独立しており、最後にのみそれらの予測が合成されます。
この非常に高速なアプローチは、ヘブライ語 POS のタグ付けと依存関係解析に新しい SOTA を設定すると同時に、他のヘブライ語 NLP タスクでも SOTA に近いパフォーマンスを達成します。
私たちのアーキテクチャは言語固有のリソースに依存しないため、他の MRL 用の同様のパーサーを開発するためのモデルとして機能します。

要約(オリジナル)

Syntactic parsing remains a critical tool for relation extraction and information extraction, especially in resource-scarce languages where LLMs are lacking. Yet in morphologically rich languages (MRLs), where parsers need to identify multiple lexical units in each token, existing systems suffer in latency and setup complexity. Some use a pipeline to peel away the layers: first segmentation, then morphology tagging, and then syntax parsing; however, errors in earlier layers are then propagated forward. Others use a joint architecture to evaluate all permutations at once; while this improves accuracy, it is notoriously slow. In contrast, and taking Hebrew as a test case, we present a new ‘flipped pipeline’: decisions are made directly on the whole-token units by expert classifiers, each one dedicated to one specific task. The classifiers are independent of one another, and only at the end do we synthesize their predictions. This blazingly fast approach sets a new SOTA in Hebrew POS tagging and dependency parsing, while also reaching near-SOTA performance on other Hebrew NLP tasks. Because our architecture does not rely on any language-specific resources, it can serve as a model to develop similar parsers for other MRLs.

arxiv情報

著者 Shaltiel Shmidman,Avi Shmidman,Moshe Koppel,Reut Tsarfaty
発行日 2024-03-11 17:54:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク