Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

要約

大規模な言語モデル(LLM)は、言語の理解と生成に顕著な能力を示しています。
それにもかかわらず、LLMSは特定のクエリに対する不正確な応答を生成する傾向があることも目撃されました。
この不足は、LLMSを受ける必要があるトークン化ステップにまで由来することができます。これは、すべてのLLMに固有の避けられない制限です。
実際、誤ったトークン化は、入力を正確に理解する際にLLMSを妨げる重要なポイントであり、したがって、不十分な出力につながります。
この欠陥は、中国のシナリオでより明白です。
このLLMSの欠陥を示すために、$ \ textBf {adt(トークネイザーの逆境データセット)} $と呼ばれる敵対的なデータセットを構築します。
ADTは、2つのサブセットで構成されています。手動で構築されたADTヒューマンと自動生成されたADT-Autoです。
私たちの経験的結果は、私たちのADTが、GPT-4O、LLAMA-3、DeepSeek-R1などを含む主要なLLMのトークン化に挑戦することに非常に効果的であり、したがってこれらのLLMS機能を分解することを明らかにしています。
さらに、自動データ生成の方法は効率的かつ堅牢であることが証明されており、オープンソースLLMに適用できます。
この論文では、トークンセグメンテーションに挑戦するという点でLLMSの脆弱性を実質的に調査します。これは、トークン化プロセスとアルゴリズムを最適化することにより、LLMSの機能を改善するためのその後の研究に光を当てます。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities in language understanding and generation. Nonetheless, it was also witnessed that LLMs tend to produce inaccurate responses to specific queries. This deficiency can be traced to the tokenization step LLMs must undergo, which is an inevitable limitation inherent to all LLMs. In fact, incorrect tokenization is the critical point that hinders LLMs in understanding the input precisely, thus leading to unsatisfactory output. This defect is more obvious in Chinese scenarios. To demonstrate this flaw of LLMs, we construct an adversarial dataset, named as $\textbf{ADT (Adversarial Dataset for Tokenizer)}$, which draws upon the vocabularies of various open-source LLMs to challenge LLMs’ tokenization. ADT consists of two subsets: the manually constructed ADT-Human and the automatically generated ADT-Auto. Our empirical results reveal that our ADT is highly effective on challenging the tokenization of leading LLMs, including GPT-4o, Llama-3, Deepseek-R1 and so on, thus degrading these LLMs’ capabilities. Moreover, our method of automatic data generation has been proven efficient and robust, which can be applied to any open-source LLMs. In this paper, we substantially investigate LLMs’ vulnerability in terms of challenging their token segmentation, which will shed light on the subsequent research of improving LLMs’ capabilities through optimizing their tokenization process and algorithms.

arxiv情報

著者 Dixuan Wang,Yanda Li,Junyuan Jiang,Zepeng Ding,Ziqin Luo,Guochao Jiang,Jiaqing Liang,Deqing Yang
発行日 2025-05-15 15:57:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク