Cross-Lingual Constituency Parsing for Middle High German: A Delexicalized Approach

要約

構成要素の解析は、自然言語処理 (NLP) タスクを進める上で基本的な役割を果たします。
ただし、注釈付きの解析データのみに依存して古代言語の自動構文解析システムをトレーニングすることは、そのような言語のツリーバンクの構築に固有の課題があるため、困難な作業です。
広範な言語専門知識が必要となるため、利用可能なリソースが不足します。
このハードルを克服するには、低リソースのターゲット言語に対して注釈付きデータを最小限またはまったく必要としない、言語間転送技術が有望なソリューションを提供します。
この研究では、注釈が付けられていない現実的な条件下で $\mathbf{M}$idle $\mathbf{H}$igh $\mathbf{G}$erman $\mathbf{MHG}$ の構成パーサーを構築することに焦点を当てます。
MHG ツリーバンクはトレーニングに利用できます。
私たちのアプローチでは、MHG と $\mathbf{M}$odern $\mathbf{G}$erman $\mathbf{MG}$ の間の言語的連続性と構造的類似性、および豊富な MG ツリーバンク リソースを活用します。
具体的には、$\mathit{delexicalization}$ メソッドを採用することで、MG 解析データセットで Constituency パーサーをトレーニングし、MHG 解析への言語間の転送を実行します。
当社の非論理化された構成パーサーは、MHG テスト セットで顕著なパフォーマンスを示し、67.3% の F1 スコアを達成しました。
これは、最高のゼロショットクロス舌ベースラインを 28.6% ポイント上回っています。
これらの心強い結果は、MHG と同様の課題に直面している他の古代言語における自動構文解析の実用性と可能性を強調しています。

要約(オリジナル)

Constituency parsing plays a fundamental role in advancing natural language processing (NLP) tasks. However, training an automatic syntactic analysis system for ancient languages solely relying on annotated parse data is a formidable task due to the inherent challenges in building treebanks for such languages. It demands extensive linguistic expertise, leading to a scarcity of available resources. To overcome this hurdle, cross-lingual transfer techniques which require minimal or even no annotated data for low-resource target languages offer a promising solution. In this study, we focus on building a constituency parser for $\mathbf{M}$iddle $\mathbf{H}$igh $\mathbf{G}$erman $\mathbf{MHG}$ under realistic conditions, where no annotated MHG treebank is available for training. In our approach, we leverage the linguistic continuity and structural similarity between MHG and $\mathbf{M}$odern $\mathbf{G}$erman $\mathbf{MG}$, along with the abundance of MG treebank resources. Specifically, by employing the $\mathit{delexicalization}$ method, we train a constituency parser on MG parse datasets and perform cross-lingual transfer to MHG parsing. Our delexicalized constituency parser demonstrates remarkable performance on the MHG test set, achieving an F1-score of 67.3%. It outperforms the best zero-shot cross-lingual baseline by a margin of 28.6% points. These encouraging results underscore the practicality and potential for automatic syntactic analysis in other ancient languages that face similar challenges as MHG.

arxiv情報

著者 Ercong Nie,Helmut Schmid,Hinrich Schütze
発行日 2023-08-09 01:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク