Evaluating Inter-Bilingual Semantic Parsing for Indian Languages

要約

タイトル:インド諸言語における異言語間意味解析の評価

要約:
– インド諸言語における自然言語生成の進展がある一方で、意味解析などの複雑な構造化タスクのデータセットが不足している。
– 英語から多言語への翻訳が困難であるため、意味解析に必要な論理形式、意図、スロットのアラインメントが困難であることが不足の一因である。
– この問題に対処するため、11種類の異なるインド言語のための異言語間Seq2seq意味解析データセットIE-SEMPARSEを提案する。
– 提案されたタスクの実用性を強調し、既存の多言語Seq2seqモデルを複数のトレイン・テスト戦略で評価することで、実験を実施する。
– 実験は、オリジナルの多言語意味解析データセット(mTOP、Multilingual TOP、multiATIS++など)と我々の提案するIE-SEMPARSEスイートの性能に高い相関があることを明らかにした。

要約(オリジナル)

Despite significant progress in Natural Language Generation for Indian languages (IndicNLP), there is a lack of datasets around complex structured tasks such as semantic parsing. One reason for this imminent gap is the complexity of the logical form, which makes English to multilingual translation difficult. The process involves alignment of logical forms, intents and slots with translated unstructured utterance. To address this, we propose an Inter-bilingual Seq2seq Semantic parsing dataset IE-SEMPARSE for 11 distinct Indian languages. We highlight the proposed task’s practicality, and evaluate existing multilingual seq2seq models across several train-test strategies. Our experiment reveals a high correlation across performance of original multilingual semantic parsing datasets (such as mTOP, multilingual TOP and multiATIS++) and our proposed IE-SEMPARSE suite.

arxiv情報

著者 Divyanshu Aggarwal,Vivek Gupta,Anoop Kunchukuttan
発行日 2023-04-25 17:24:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク