要約
自然言語加工(NLP)の研究は、伝統的に、リソースの利用可能性、研究コミュニティの規模、市場の需要に至るまで、主に英語に焦点を当ててきました。
最近、NLPの多言語主義への顕著な変化があり、多様な言語や文化にわたる包括性と有効性の必要性を認識しています。
単一言語の調査には、グローバルなコミュニケーションの言語の多様性に効果的に対処するために必要な基本的な洞察とリソースを提供することにより、NLPの多言語主義へのより広範な傾向を補完する可能性があります。
ただし、文献では、単一言語のNLP調査は非常にまれです。
この研究では、そのような調査を構築するプロセスを最適化し、言語のNLPサポートに徹底的に対処するプロセスを最適化することを目的とした、体系的で包括的な単一言語のNLP調査を作成するための一般化可能な方法論を紹介します。
私たちのアプローチは、構造化された検索プロトコルを統合して、選択バイアスを回避し、再現性を確保し、調査対象の材料を首尾一貫して整理するためのNLPタスク分類法、および潜在的なベンチマークを特定し、リソースの可用性を改善するための機会を強調するための言語リソース(LR)分類法を確保する
またはライセンス)。
この方法論をギリシャのNLP(2012-2023)に適用し、現在の状態と課題の包括的な概要を提供します。
ギリシャのNLPの進捗状況について説明し、NLPタスクごとの言語サポートを評価して、可用性と使いやすさによって分類されたギリシャのLRSの概要を説明します。
ギリシャのNLPの提示された系統的文献レビューは、単一言語のNLP調査の利点をより広く示す方法の応用として機能します。
同様のアプリケーションは、NLPの進歩が十分にサポートされている言語の進歩に遅れをとっている言語の無数のアプリケーションで考慮することができます。
要約(オリジナル)
Natural Language Processing (NLP) research has traditionally been predominantly focused on English, driven by the availability of resources, the size of the research community, and market demands. Recently, there has been a noticeable shift towards multilingualism in NLP, recognizing the need for inclusivity and effectiveness across diverse languages and cultures. Monolingual surveys have the potential to complement the broader trend towards multilingualism in NLP by providing foundational insights and resources, necessary for effectively addressing the linguistic diversity of global communication. However, monolingual NLP surveys are extremely rare in the literature. This study introduces a generalizable methodology for creating systematic and comprehensive monolingual NLP surveys, aimed at optimizing the process of constructing such surveys and thoroughly addressing a language’s NLP support. Our approach integrates a structured search protocol to avoid selection bias and ensure reproducibility, an NLP task taxonomy to organize the surveyed material coherently, and language resources (LRs) taxonomies to identify potential benchmarks and highlight opportunities for improving resource availability (e.g., through better maintenance or licensing). We apply this methodology to Greek NLP (2012-2023), providing a comprehensive overview of its current state and challenges. We discuss the progress of Greek NLP and outline the Greek LRs found, classified by availability and usability, assessing language support per NLP task. The presented systematic literature review of Greek NLP serves as an application of our method that showcases the benefits of monolingual NLP surveys more broadly. Similar applications could be considered for the myriads of languages whose progress in NLP lags behind that of well-supported languages.
arxiv情報
著者 | Juli Bakagianni,Kanella Pouli,Maria Gavriilidou,John Pavlopoulos |
発行日 | 2025-01-31 16:28:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google