Evaluating Inter-Bilingual Semantic Parsing for Indian Languages

要約

インド言語の自然言語生成 (IndicNLP) は大幅に進歩しているにもかかわらず、意味解析などの複雑な構造化タスクに関するデータセットが不足しています。
この差し迫ったギャップの理由の 1 つは、論理形式の複雑さであり、それが英語から多言語への翻訳を困難にしています。
このプロセスには、翻訳された非構造化発話との論理形式、インテント、およびスロットの調整が含まれます。
これに対処するために、11 の異なるインド言語用のバイリンガル間 Seq2seq 意味解析データセット IE-SEMPARSE を提案します。
提案されたタスクの実用性を強調し、いくつかのトレーニング/テスト戦略にわたって既存の多言語 seq2seq モデルを評価します。
私たちの実験では、元の多言語セマンティック解析データセット (mTOP、多言語 TOP、multiATIS++ など) と私たちが提案する IE-SEMPARSE スイートのパフォーマンス間の高い相関関係が明らかになりました。

要約(オリジナル)

Despite significant progress in Natural Language Generation for Indian languages (IndicNLP), there is a lack of datasets around complex structured tasks such as semantic parsing. One reason for this imminent gap is the complexity of the logical form, which makes English to multilingual translation difficult. The process involves alignment of logical forms, intents and slots with translated unstructured utterance. To address this, we propose an Inter-bilingual Seq2seq Semantic parsing dataset IE-SEMPARSE for 11 distinct Indian languages. We highlight the proposed task’s practicality, and evaluate existing multilingual seq2seq models across several train-test strategies. Our experiment reveals a high correlation across performance of original multilingual semantic parsing datasets (such as mTOP, multilingual TOP and multiATIS++) and our proposed IE-SEMPARSE suite.

arxiv情報

著者 Divyanshu Aggarwal,Vivek Gupta,Anoop Kunchukuttan
発行日 2023-06-05 15:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク