Towards Global AI Inclusivity: A Large-Scale Multilingual Terminology Dataset (GIST)

要約

機械翻訳の分野は大きな進歩を達成していますが、特にAIでのドメイン固有の用語翻訳は依然として困難です。
2000年から2023年にわたるトップAIカンファレンスペーパーから抽出された5K用語を含む大規模な多言語AI用語データセットであるGISTを紹介します。この用語は、抽出用のLLMSを組み合わせたハイブリッドフレームワークを使用して、アラビア語、中国語、フランス語、日本、およびロシア語に翻訳されます。
翻訳のための人間の専門知識があります。
データセットの品質は既存のリソースに対してベンチマークされており、クラウドソーシング評価を通じて優れた翻訳の精度を示しています。
GISTは、再翻訳後の改良方法を使用して翻訳ワークフローに統合されます。
ACLアンソロジープラットフォームでのWebデモンストレーションは、その実用的なアプリケーションを強調し、英語以外のスピーカーのアクセシビリティの改善を紹介します。
この作業は、AI用語リソースの重要なギャップに対処し、AI研究におけるグローバルな包括性と協力を促進することを目的としています。

要約(オリジナル)

The field of machine translation has achieved significant advancements, yet domain-specific terminology translation, particularly in AI, remains challenging. We introduce GIST, a large-scale multilingual AI terminology dataset containing 5K terms extracted from top AI conference papers spanning 2000 to 2023. The terms are translated into Arabic, Chinese, French, Japanese, and Russian using a hybrid framework that combines LLMs for extraction with human expertise for translation. The dataset’s quality is benchmarked against existing resources, demonstrating superior translation accuracy through crowdsourced evaluation. GIST is integrated into translation workflows using post-translation refinement methods that require no retraining, where LLM prompting consistently improves BLEU and COMET scores. A web demonstration on the ACL Anthology platform highlights its practical application, showcasing improved accessibility for non-English speakers. This work aims to address critical gaps in AI terminology resources and fosters global inclusivity and collaboration in AI research.

arxiv情報

著者 Jiarui Liu,Iman Ouzzani,Wenkai Li,Lechen Zhang,Tianyue Ou,Houda Bouamor,Zhijing Jin,Mona Diab
発行日 2025-02-17 18:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク