CLSE: Corpus of Linguistically Significant Entities

要約

自然言語生成 (NLG) の最大の課題の 1 つは、名前付きエンティティを適切に処理することです。
名前付きエンティティは、間違った前置詞、間違った冠詞の処理、または間違ったエンティティの語形変化などの文法上の間違いの一般的な原因です。
言語表現を因数分解しないと、恣意的に選択された少数の引数の値を評価する場合や、データセットを英語などの言語的に単純な言語からロシア語などの言語的に複雑な言語に翻訳する場合、このようなエラーは過小評価されることがよくあります。
ただし、一部のアプリケーションでは、広範に正確な文法的正確さが重要です。ネイティブ スピーカーにとって、エンティティ関連の文法エラーはばかげている、不快に感じられる、または不快にさえ感じる場合があります。
より言語的に多様な NLG データセットの作成を可能にするために、言語学者の専門家によって注釈が付けられた言語的に重要なエンティティのコーパス (CLSE) をリリースします。
このコーパスには 34 の言語が含まれており、航空券発券からビデオ ゲームまでさまざまなアプリケーションをサポートするために 74 の異なる意味タイプをカバーしています。
CLSE の可能な使用法の 1 つを示すために、スキーマガイド付きダイアログ データセットの拡張バージョンである SGD-CLSE を作成します。
CLSE のエンティティと少数の人的翻訳を使用して、フランス語 (高リソース)、マラーティー語 (低リソース)、ロシア語 (高度に活用された言語) の 3 つの言語で言語的に代表的な NLG 評価ベンチマークを作成します。
ニューラル、テンプレートベース、ハイブリッド NLG システムの品質ベースラインを確立し、各アプローチの長所と短所について議論します。

要約(オリジナル)

One of the biggest challenges of natural language generation (NLG) is the proper handling of named entities. Named entities are a common source of grammar mistakes such as wrong prepositions, wrong article handling, or incorrect entity inflection. Without factoring linguistic representation, such errors are often underrepresented when evaluating on a small set of arbitrarily picked argument values, or when translating a dataset from a linguistically simpler language, like English, to a linguistically complex language, like Russian. However, for some applications, broadly precise grammatical correctness is critical — native speakers may find entity-related grammar errors silly, jarring, or even offensive. To enable the creation of more linguistically diverse NLG datasets, we release a Corpus of Linguistically Significant Entities (CLSE) annotated by linguist experts. The corpus includes 34 languages and covers 74 different semantic types to support various applications from airline ticketing to video games. To demonstrate one possible use of CLSE, we produce an augmented version of the Schema-Guided Dialog Dataset, SGD-CLSE. Using the CLSE’s entities and a small number of human translations, we create a linguistically representative NLG evaluation benchmark in three languages: French (high-resource), Marathi (low-resource), and Russian (highly inflected language). We establish quality baselines for neural, template-based, and hybrid NLG systems and discuss the strengths and weaknesses of each approach.

arxiv情報

著者 Aleksandr Chuklin,Justin Zhao,Mihir Kale
発行日 2023-08-30 12:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク