Towards Linguistically-Aware and Language-Independent Tokenization for Large Language Models (LLMs)

要約

本稿では、最新の大規模言語モデル(LLM)が採用するトークン化技術と、それらが異なる言語(特に低リソース言語)のサービスのコストと可用性に与える影響に関する包括的な研究を紹介する。この分析では、GPT-4(cl100k_baseエンベッディングを使用)、GPT-3(p50k_baseエンベッディングを使用)、DaVinci(r50k_baseエンベッディングを使用)などの複数のLLMと、広く使用されているBERTベーストークナイザを考慮しています。本研究では、これらのモデル間で観察されるトークン化のばらつきを評価し、サブワード トークン化における言語表現の課題を調査する。この研究は、特に伝統的にリソースが不足している言語について、言語学的な認識を持った開発手法を育成することの重要性を強調しています。さらに、特に電子カルテ(EHR)システムにおいて、トークン化の選択が実世界に与える影響を強調するケーススタディを紹介する。この研究の目的は、この領域およびそれ以降のAIサービスの開発において、特にAIアプリケーションにおいて伝統的に代表的でない言語に対する包括性に強く重点を置きながら、一般化可能な国際化(I18N)の実践を促進することである。

要約(オリジナル)

This paper presents a comprehensive study on the tokenization techniques employed by state-of-the-art large language models (LLMs) and their implications on the cost and availability of services across different languages, especially low resource languages. The analysis considers multiple LLMs, including GPT-4 (using cl100k_base embeddings), GPT-3 (with p50k_base embeddings), and DaVinci (employing r50k_base embeddings), as well as the widely used BERT base tokenizer. The study evaluates the tokenization variability observed across these models and investigates the challenges of linguistic representation in subword tokenization. The research underscores the importance of fostering linguistically-aware development practices, especially for languages that are traditionally under-resourced. Moreover, this paper introduces case studies that highlight the real-world implications of tokenization choices, particularly in the context of electronic health record (EHR) systems. This research aims to promote generalizable Internationalization (I18N) practices in the development of AI services in this domain and beyond, with a strong emphasis on inclusivity, particularly for languages traditionally underrepresented in AI applications.

arxiv情報

著者 Abrar Rahman,Garry Bowlin,Binit Mohanty,Sean McGunigal
発行日 2024-10-04 16:18:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク