Harnessing the Power of Artificial Intelligence to Vitalize Endangered Indigenous Languages: Technologies and Experiences

要約

2022 年以来、私たちは人工知能 (AI) と大規模言語モデル (LLM) などの最新の自然言語処理 (NLP) を利用して、先住民言語の使用を促進し、文書化を促進できる応用分野とテクノロジーを模索してきました。
消滅の危機に瀕している。
まず、世界中で言語の多様性が減少していることと、先住民言語を扱うことが AI と NLP にとって独特の倫理的課題をどのように引き起こすかについて説明します。
これらの課題に対処するために、私たちはコミュニティの関与と使用状況に基づいた代替 AI 開発サイクルを提案します。
次に、最先端 (SOTA) 翻訳機を少量のデータで微調整することにより、先住民言語用の高品質な機械学習翻訳機を開発した有望な結果を報告し、そのプロセスでよくある落とし穴を回避する方法について説明します。

また、2023 年と 2024 年にブラジルの先住民族コミュニティと共同で行った、執筆を容易にすることを目的としたプロジェクトで構築したプロトタイプを紹介し、スペルチェッカーを作成するための複製可能かつスケーラブルな方法としての先住民言語モデル (ILM) の開発について説明します。
単語予測ツール、および同様のツール。
最後に、消滅しつつある言語がインタラクティブな言語モデルとして保存される言語ドキュメントの未来をどのように構想するかについて説明します。

要約(オリジナル)

Since 2022 we have been exploring application areas and technologies in which Artificial Intelligence (AI) and modern Natural Language Processing (NLP), such as Large Language Models (LLMs), can be employed to foster the usage and facilitate the documentation of Indigenous languages which are in danger of disappearing. We start by discussing the decreasing diversity of languages in the world and how working with Indigenous languages poses unique ethical challenges for AI and NLP. To address those challenges, we propose an alternative development AI cycle based on community engagement and usage. Then, we report encouraging results in the development of high-quality machine learning translators for Indigenous languages by fine-tuning state-of-the-art (SOTA) translators with tiny amounts of data and discuss how to avoid some common pitfalls in the process. We also present prototypes we have built in projects done in 2023 and 2024 with Indigenous communities in Brazil, aimed at facilitating writing, and discuss the development of Indigenous Language Models (ILMs) as a replicable and scalable way to create spell-checkers, next-word predictors, and similar tools. Finally, we discuss how we envision a future for language documentation where dying languages are preserved as interactive language models.

arxiv情報

著者 Claudio Pinhanez,Paulo Cavalin,Luciana Storto,Thomas Fimbow,Alexander Cobbinah,Julio Nogima,Marisa Vasconcelos,Pedro Domingues,Priscila de Souza Mizukami,Nicole Grell,Majoí Gongora,Isabel Gonçalves
発行日 2024-07-17 14:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク