Sāmayik: A Benchmark and Dataset for English-Sanskrit Translation

要約

私たちは、現代散文で書かれた約 53,000 の英語とサンスクリット語の並列文のデータセットである S\={a}mayik をリリースします。
サンスクリット語は現在でも存続している古典言語であり、豊富な文書化された遺産があります。
ただし、デジタル化されたコンテンツの入手が限られているため、依然としてリソースの少ない言語のままです。
既存のサンスクリット語コーパスは、一言語であろうと二言語であろうと、主に詩に焦点を当てており、現代の書かれた資料の範囲は限られています。
S\={a}mayik は、言語教材、テキスト教育法、オンライン チュートリアルなど、さまざまな分野から厳選されています。
これは、主に散文に重点を置き、特に現代のサンスクリット語の使用法に対応したユニークなリソースとして際立っています。
私たちのデータセットでトレーニングされた翻訳モデルは、ドメイン外の現代コーパスを翻訳する際に統計的に大幅な改善を示し、古い古典時代の詩のデータセットでトレーニングされたモデルを上回りました。
最後に、4 つの事前トレーニング済み多言語モデルを適応させたベンチマーク モデルもリリースします。そのうちの 3 つは英語とサンスクリット語間の翻訳のためにサンスクリット語にこれまでさらされておらず、そのうちの 1 つは英語とサンスクリット語を含む多言語の事前トレーニング済み翻訳モデルです。
データセットとソース コードは https://github.com/ayushbits/saamayik にあります。

要約(オリジナル)

We release S\={a}mayik, a dataset of around 53,000 parallel English-Sanskrit sentences, written in contemporary prose. Sanskrit is a classical language still in sustenance and has a rich documented heritage. However, due to the limited availability of digitized content, it still remains a low-resource language. Existing Sanskrit corpora, whether monolingual or bilingual, have predominantly focused on poetry and offer limited coverage of contemporary written materials. S\={a}mayik is curated from a diverse range of domains, including language instruction material, textual teaching pedagogy, and online tutorials, among others. It stands out as a unique resource that specifically caters to the contemporary usage of Sanskrit, with a primary emphasis on prose writing. Translation models trained on our dataset demonstrate statistically significant improvements when translating out-of-domain contemporary corpora, outperforming models trained on older classical-era poetry datasets. Finally, we also release benchmark models by adapting four multilingual pre-trained models, three of them have not been previously exposed to Sanskrit for translating between English and Sanskrit while one of them is multi-lingual pre-trained translation model including English and Sanskrit. The dataset and source code is present at https://github.com/ayushbits/saamayik.

arxiv情報

著者 Ayush Maheshwari,Ashim Gupta,Amrith Krishna,Atul Kumar Singh,Ganesh Ramakrishnan,G. Anil Kumar,Jitin Singla
発行日 2024-03-29 16:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク