要約
レキシコンまたはドメイン全体の辞書の生成は、言語のアイデンティティを保存しながら、多様なユーザーベースの情報アクセシビリティを潜在的に強化できるため、社会的影響の可能性があります。
この分野での以前の研究は、主にバイリンガルの語彙誘導に焦点を当てており、マッピングまたはコーパスベースのアプローチを使用して単語のアライメントを扱っています。
ただし、これらのアプローチは、ドメイン固有の用語で構成されるドメイン固有のレキシコン生成に対応するものではありません。
このタスクは、特に低/リソース言語に対してドメイン固有の用語を含むデータの非常に頻繁に使用されるため、専門的な医療、工学、およびその他の技術ドメインで特に重要になります。
このホワイトペーパーでは、マルチドメイン設定で6ドルのインド言語の辞書単語を生成する新しいモデルを提案します。
私たちのモデルは、情報をエンコードするドメイン固有のドメイン一般的なレイヤーで構成されており、これらのレイヤーは学習可能なルーティング手法を介して呼び出されます。
また、8つの多様なドメインにまたがる6つのインド言語にわたる75Kの翻訳ペアで構成される新しいベンチマークデータセットをリリースします。複数のドメインでゼロショットと少数のショット実験の両方を実施して、目に見えないドメインと目に見えない言語に一般化する際に提案されたモデルの有効性を示します。
さらに、目に見えない言語での事後の人間の評価も実行します。
ソースコードとデータセットはhttps://github.com/atulkmrsingh/lexgenに存在します。
要約(オリジナル)
Lexicon or dictionary generation across domains has the potential for societal impact, as it can potentially enhance information accessibility for a diverse user base while preserving language identity. Prior work in the field primarily focuses on bilingual lexical induction, which deals with word alignments using mapping or corpora-based approaches. However, these approaches do not cater to domain-specific lexicon generation that consists of domain-specific terminology. This task becomes particularly important in specialized medical, engineering, and other technical domains, owing to the highly infrequent usage of the terms and scarcity of data involving domain-specific terms especially for low/mid-resource languages. In this paper, we propose a new model to generate dictionary words for $6$ Indian languages in the multi-domain setting. Our model consists of domain-specific and domain-generic layers that encode information, and these layers are invoked via a learnable routing technique. We also release a new benchmark dataset consisting of >75K translation pairs across 6 Indian languages spanning 8 diverse domains.We conduct both zero-shot and few-shot experiments across multiple domains to show the efficacy of our proposed model in generalizing to unseen domains and unseen languages. Additionally, we also perform a post-hoc human evaluation on unseen languages. The source code and dataset is present at https://github.com/Atulkmrsingh/lexgen.
arxiv情報
著者 | Ayush Maheshwari,Atul Kumar Singh,Karthika NJ,Krishnakant Bhatt,Preethi Jyothi,Ganesh Ramakrishnan |
発行日 | 2025-06-02 11:31:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google