GiesKaNe: Bridging Past and Present in Grammatical Theory and Practical Application

要約

この記事では、Gieskaneプロジェクト(Giessen University and Kassel、新しい高ドイツ語の構文基本構造)内のコーパス編集の要件を調査します。
このプロジェクトは、3つの中心的な特性によって定義されています。これは、参照コーパス、歴史的なコーパス、および構文的に深く注釈付きのツリーバンクです。
歴史的なコーパスとして、ジエルカネは歴史的および現代的なコーパラの両方とのつながりを確立することを目指しており、時間的および言語的文脈にわたるその関連性を確保しています。
編集プロセスは、革新と基準への順守とのバランスをとっており、内部プロジェクトの目標と研究コミュニティのより広範な関心の両方に取り組んでいます。
このようなプロジェクトの方法論的な複雑さは、人間の専門知識と機械支援プロセスの補完的な相互作用を通じて管理されます。
この記事では、高度な考慮事項とともに、トークン化、正規化、文の定義、タグ付け、解析、アノテーター間契約などの基本的なトピックについて説明します。
これらには、文法モデル、注釈スキーマ、および確立された事実上の注釈基準の比較、および人間と機械のコラボレーションの統合が含まれます。
特に、概念的な口頭とリテラシーの連続体に沿ったマシン支援テキストの分類のための新しい方法が提案されており、テキスト選択に関する新しい視点を提供します。
さらに、この記事では、既存のものから事実上の標準的な注釈を導き出すアプローチを紹介し、標準化と革新を媒介しています。
ワークフローを説明する過程で、この記事は、Gieskaneのような野心的なプロジェクトでさえ、既存の研究インフラストラクチャを使用して効果的に実装できることを示しています。
代わりに、ワークフローは、単純なスプレッドシートの戦略的使用に基づいて、既存のインフラストラクチャの機能を統合できることが示されています。

要約(オリジナル)

This article explores the requirements for corpus compilation within the GiesKaNe project (University of Giessen and Kassel, Syntactic Basic Structures of New High German). The project is defined by three central characteristics: it is a reference corpus, a historical corpus, and a syntactically deeply annotated treebank. As a historical corpus, GiesKaNe aims to establish connections with both historical and contemporary corpora, ensuring its relevance across temporal and linguistic contexts. The compilation process strikes the balance between innovation and adherence to standards, addressing both internal project goals and the broader interests of the research community. The methodological complexity of such a project is managed through a complementary interplay of human expertise and machine-assisted processes. The article discusses foundational topics such as tokenization, normalization, sentence definition, tagging, parsing, and inter-annotator agreement, alongside advanced considerations. These include comparisons between grammatical models, annotation schemas, and established de facto annotation standards as well as the integration of human and machine collaboration. Notably, a novel method for machine-assisted classification of texts along the continuum of conceptual orality and literacy is proposed, offering new perspectives on text selection. Furthermore, the article introduces an approach to deriving de facto standard annotations from existing ones, mediating between standardization and innovation. In the course of describing the workflow the article demonstrates that even ambitious projects like GiesKaNe can be effectively implemented using existing research infrastructure, requiring no specialized annotation tools. Instead, it is shown that the workflow can be based on the strategic use of a simple spreadsheet and integrates the capabilities of the existing infrastructure.

arxiv情報

著者 Volker Emmrich
発行日 2025-02-07 17:35:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク