Step-by-step Instructions and a Simple Tabular Output Format Improve the Dependency Parsing Accuracy of LLMs

要約

大規模な言語モデル(LLMS)の最近の進歩により、さまざまなタスクで印象的なパフォーマンスが可能になりました。
ただし、標準のプロンプトは、特に依存関係の解析において、構造的に有効で正確な出力を生成するのに苦労しています。
普遍的な課題の一部のタグ付けが構文ヘッドと依存関係ラベルの予測に先行する新しいステップバイステップの指導戦略、および単純化されたCONLL-Uのような出力形式を提案します。私たちの方法は、幻覚や汚染なしの17の言語のユニバーサル依存関係データセットの最先端の精度を達成します。
さらに、多言語の微調整が同時に、言語間の一般化パフォーマンスを改善することを示します。
私たちの結果は、LLMベースの解析における明示的な推論ステップの有効性を強調し、ブラケットベースのアプローチに代わるスケーラブルで形式的な代替品を提供します。

要約(オリジナル)

Recent advances in large language models (LLMs) have enabled impressive performance in various tasks. However, standard prompting often struggles to produce structurally valid and accurate outputs, especially in dependency parsing. We propose a novel step-by-step instruction strategy, where universal part-of-speech tagging precedes the prediction of syntactic heads and dependency labels, and a simplified CoNLL-U like output format, our method achieves state-of-the-art accuracy on Universal Dependencies datasets across 17 languages without hallucination or contamination. We further show that multilingual fine-tuning simultaneously improves cross-language generalization performance. Our results highlight the effectiveness of explicit reasoning steps in LLM-based parsing and offer a scalable, format-consistent alternative to bracket-based approaches.

arxiv情報

著者 Hiroshi Matsuda,Chunpeng Ma,Masayuki Asahara
発行日 2025-06-11 17:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク