要約
自然言語処理 (NLP) の研究者は、書かれたテキストに基づいて文法、意味、コミュニケーションのモデルを開発します。
タスクとデータの違いにより、テキストとみなされる内容は研究によって大幅に異なる場合があります。
これらの違いを体系的に捉えるための概念的な枠組みが不足しています。
私たちは、テキストの概念を明確にすることが再現可能で一般化可能な NLP にとって重要であると主張します。
その目標に向けて、テキスト データの生成と変換について議論するための共通用語を提案し、テキスト ソースで利用可能で NLP モデリングで使用できる言語要素と非言語要素の 2 層の分類を導入します。
私たちはこの分類法を適用して、保守的な言語中心の見方を超えてテキストの概念を拡張する既存の研究を調査します。
私たちは、NLP のテキストに対する新たな包括的なアプローチの主要な要望と課題を概説し、議論を強化するための重要な次のステップとしてコミュニティ レベルのレポートを提案します。
要約(オリジナル)
Natural language processing (NLP) researchers develop models of grammar, meaning and communication based on written text. Due to task and data differences, what is considered text can vary substantially across studies. A conceptual framework for systematically capturing these differences is lacking. We argue that clarity on the notion of text is crucial for reproducible and generalizable NLP. Towards that goal, we propose common terminology to discuss the production and transformation of textual data, and introduce a two-tier taxonomy of linguistic and non-linguistic elements that are available in textual sources and can be used in NLP modeling. We apply this taxonomy to survey existing work that extends the notion of text beyond the conservative language-centered view. We outline key desiderata and challenges of the emerging inclusive approach to text in NLP, and suggest community-level reporting as a crucial next step to consolidate the discussion.
arxiv情報
著者 | Ilia Kuznetsov,Iryna Gurevych |
発行日 | 2023-05-17 09:56:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google