要約
少数言語は文化遺産の保存に不可欠ですが、限られたデジタルリソースと高リソース言語で訓練された人工知能モデルの優位性により、絶滅のリスクの増大に直面しています。
このホワイトペーパーでは、保存の取り組みに役立つ言語モデルの開発をサポートするデータ作成に焦点を当て、低リソース言語用の言語ツールを生成するフレームワークを提案します。
絶滅危惧言語であるサルデーニャ語は、フレームワークの有効性を示すケーススタディとして機能します。
このような言語のインテリジェントなアプリケーションを妨げるデータ不足に対処することで、私たちは言語の多様性の促進に貢献し、最新のテクノロジーによる言語の標準化と活性化の継続的な取り組みをサポートします。
要約(オリジナル)
Minority languages are vital to preserving cultural heritage, yet they face growing risks of extinction due to limited digital resources and the dominance of artificial intelligence models trained on high-resource languages. This white paper proposes a framework to generate linguistic tools for low-resource languages, focusing on data creation to support the development of language models that can aid in preservation efforts. Sardinian, an endangered language, serves as the case study to demonstrate the framework’s effectiveness. By addressing the data scarcity that hinders intelligent applications for such languages, we contribute to promoting linguistic diversity and support ongoing efforts in language standardization and revitalization through modern technologies.
arxiv情報
著者 | Salvatore Mario Carta,Stefano Chessa,Giulia Contu,Andrea Corriga,Andrea Deidda,Gianni Fenu,Luca Frigau,Alessandro Giuliani,Luca Grassi,Marco Manolo Manca,Mirko Marras,Francesco Mola,Bastianino Mossa,Piergiorgio Mura,Marco Ortu,Leonardo Piano,Simone Pisano,Alessia Pisu,Alessandro Sebastian Podda,Livio Pompianu,Simone Seu,Sandro Gabriele Tiddia |
発行日 | 2024-11-20 16:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google