要約
この論文では、自然言語における名詞句 (NP) の汎用性をきめ細かくモデリングするための新しい注釈フレームワークを紹介します。
このフレームワークはシンプルかつ直感的に設計されているため、専門家でなくてもアノテーターにアクセスでき、クラウドソーシングのタスクに適しています。
ジェネリック性に関する理論的および認知的文献に基づいたこのフレームワークは、確立された言語理論に基づいています。
パイロット研究を通じて、将来の研究の基礎として機能する、小さいながらも重要な注釈付き 324 文のデータセットを作成しました。
私たちのアプローチを検証するために、同じデータセット上で連続アノテーションと既存のバイナリ アノテーションを比較する評価を実施し、汎用性の微妙な側面を捉える際のフレームワークの有効性を実証しました。
私たちの研究は、言語学者にとって実用的なリソースを提供し、ジェネリック性の意味論の研究に使用できる実際の言語データセットを構築するために設計された最初の注釈付きデータセットと注釈スキームを提供し、NLP 実践者にとって貴重な常識知識リポジトリの開発に貢献します。
さまざまな NLP アプリケーションを強化します。
要約(オリジナル)
This paper introduces a novel annotation framework for the fine-grained modeling of Noun Phrases’ (NPs) genericity in natural language. The framework is designed to be simple and intuitive, making it accessible to non-expert annotators and suitable for crowd-sourced tasks. Drawing from theoretical and cognitive literature on genericity, this framework is grounded in established linguistic theory. Through a pilot study, we created a small but crucial annotated dataset of 324 sentences, serving as a foundation for future research. To validate our approach, we conducted an evaluation comparing our continuous annotations with existing binary annotations on the same dataset, demonstrating the framework’s effectiveness in capturing nuanced aspects of genericity. Our work offers a practical resource for linguists, providing a first annotated dataset and an annotation scheme designed to build real-language datasets that can be used in studies on the semantics of genericity, and NLP practitioners, contributing to the development of commonsense knowledge repositories valuable in enhancing various NLP applications.
arxiv情報
著者 | Claudia Collacciani,Andrea Amelio Ravelli,Marianna Marcella Bolognesi |
発行日 | 2024-03-22 15:21:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google