Cross-domain Chinese Sentence Pattern Parsing

要約

文パターン構造 (SPS) 解析は、主に言語教育で使用される構文解析手法です。既存の SPS パーサーはトレーニングのために教科書のコーパスに大きく依存しており、クロスドメイン機能がありません。この制約を克服するために、この論文では大規模な言語モデルを活用した革新的なアプローチを提案します。
(LLM) 自己トレーニングのフレームワーク内で。
ソースドメインの部分的な構文ルールがターゲットドメインの文と結合されてトレーニングデータが動的に生成され、パーサーの多様なドメインへの適応性が強化されます。教科書およびニュースドメインで行われた実験では、提案された方法の有効性が実証され、ルールベースのベースラインを上回ります。
F1指標では1.68ポイント。

要約(オリジナル)

Sentence Pattern Structure (SPS) parsing is a syntactic analysis method primarily employed in language teaching.Existing SPS parsers rely heavily on textbook corpora for training, lacking cross-domain capability.To overcome this constraint, this paper proposes an innovative approach leveraging large language models (LLMs) within a self-training framework. Partial syntactic rules from a source domain are combined with target domain sentences to dynamically generate training data, enhancing the adaptability of the parser to diverse domains.Experiments conducted on textbook and news domains demonstrate the effectiveness of the proposed method, outperforming rule-based baselines by 1.68 points on F1 metrics.

arxiv情報

著者 Yingsi Yu,Cunliang Kong,Liner Yang,Meishan Zhang,Lin Zhu,Yujie Wang,Haozhe Lin,Maosong Sun,Erhong Yang
発行日 2024-02-26 05:30:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク