要約
語彙化された文法、特に樹木を吸収する文法(TAG)の開発は、自然言語処理(NLP)における構文とセマンティクスの理解を大幅に進めました。
Penn TreebankやUniversal依存関係などの既存の構文リソースは、フレーズ構造と依存関係解析のための広範な注釈を提供しますが、語彙化文法形式に基づいた大規模なコーパラが不足しています。
このギャップに対処するために、既存の構文ツリーバンクから自動的に抽出されたタグ派生のコーパスであるTagBankを紹介します。
このペーパーでは、タグの導出をマッピングするための方法論の概要を説明します。タグ導入、タグの生成パワーを活用して、解析、文法誘導、セマンティック分析をサポートします。
私たちのアプローチは、CCGBANKの作業に基づいており、透明な派生ツリーや長距離依存性をキャプチャする能力など、タグの固有の構造特性を組み込むために拡張します。
また、抽出プロセスに伴う課題についても説明します。これには、ツリーバンクスキーム全体の一貫性の確保や言語固有の構文特異性への対処などがあります。
最後に、Tagbankの将来の拡張を提案して、Tagの形式主義の言語間アプリケーションを探求するために、Penn Korean and Penn Chinese Chinese Treebanksに焦点を当てた多言語のコーパラを含めます。
堅牢で派生ベースのリソースを提供することにより、TagBankは幅広い計算タスクをサポートし、Tagの生成能力の理論的理解に貢献することを目指しています。
要約(オリジナル)
The development of lexicalized grammars, particularly Tree-Adjoining Grammar (TAG), has significantly advanced our understanding of syntax and semantics in natural language processing (NLP). While existing syntactic resources like the Penn Treebank and Universal Dependencies offer extensive annotations for phrase-structure and dependency parsing, there is a lack of large-scale corpora grounded in lexicalized grammar formalisms. To address this gap, we introduce TAGbank, a corpus of TAG derivations automatically extracted from existing syntactic treebanks. This paper outlines a methodology for mapping phrase-structure annotations to TAG derivations, leveraging the generative power of TAG to support parsing, grammar induction, and semantic analysis. Our approach builds on the work of CCGbank, extending it to incorporate the unique structural properties of TAG, including its transparent derivation trees and its ability to capture long-distance dependencies. We also discuss the challenges involved in the extraction process, including ensuring consistency across treebank schemes and dealing with language-specific syntactic idiosyncrasies. Finally, we propose the future extension of TAGbank to include multilingual corpora, focusing on the Penn Korean and Penn Chinese Treebanks, to explore the cross-linguistic application of TAG’s formalism. By providing a robust, derivation-based resource, TAGbank aims to support a wide range of computational tasks and contribute to the theoretical understanding of TAG’s generative capacity.
arxiv情報
著者 | Jungyeul Park |
発行日 | 2025-04-07 16:13:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google