要約
低リソースの機械翻訳(MT)は、コミュニティのニーズとアプリケーションの課題の多様性を示しています。
回答者の小さなサンプルに依存する傾向がある調査とフォーカスグループを補完するために、Tetun $。$ orgの実際の使用パターンに関する観察研究を提案します。
100,000の翻訳要求の分析により、既存のコーパスに基づいた仮定に挑戦するパターンが明らかになります。
モバイルデバイスの学生の多くは、通常、科学、ヘルスケア、日常生活などの多様なドメインを越えて、高リソースの言語からTetunにテキストを翻訳します。
これは、政府や社会問題をカバーするニュース記事が支配している利用可能なTetun Corporaとは鋭く対照的です。
私たちの結果は、Tetunのような制度化された少数言語のMTシステムは、高資源から低リソースの方向への教育的文脈に関連するドメインの精度を優先する必要があることを示唆しています。
より広く、この研究は、実際のコミュニティニーズの研究を基盤とすることにより、観察分析が低リソースの言語技術開発にどのように情報を提供できるかを示しています。
要約(オリジナル)
Low-resource machine translation (MT) presents a diversity of community needs and application challenges that remain poorly understood. To complement surveys and focus groups, which tend to rely on small samples of respondents, we propose an observational study on actual usage patterns of tetun$.$org, a specialized MT service for the Tetun language, which is the lingua franca in Timor-Leste. Our analysis of 100,000 translation requests reveals patterns that challenge assumptions based on existing corpora. We find that users, many of them students on mobile devices, typically translate text from a high-resource language into Tetun across diverse domains including science, healthcare, and daily life. This contrasts sharply with available Tetun corpora, which are dominated by news articles covering government and social issues. Our results suggest that MT systems for institutionalized minority languages like Tetun should prioritize accuracy on domains relevant to educational contexts, in the high-resource to low-resource direction. More broadly, this study demonstrates how observational analysis can inform low-resource language technology development, by grounding research in practical community needs.
arxiv情報
著者 | Raphael Merx,Adérito José Guterres Correia,Hanna Suominen,Ekaterina Vylomova |
発行日 | 2025-04-02 13:56:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google