Tokenization Matters! Degrading Large Language Models through Challenging Their Tokenization

要約

大規模言語モデル (LLM) は、言語の理解と生成において顕著な能力を示しています。
それにもかかわらず、LLM は特定のクエリに対して不正確な応答を生成する傾向があることも確認されています。
この欠陥は、LLM が受けなければならないトークン化ステップに原因を追跡できます。これは、すべての LLM に固有の避けられない制限です。
実際、誤ったトークン化は、LLM が入力を正確に理解することを妨げる重要な点であり、その結果、満足のいく出力が得られません。
LLM のこの欠陥を実証するために、$\textbf{ADT (Adversarial Dataset for Tokenizer)}$ という名前の敵対的データセットを構築します。これは、LLM のトークン化に挑戦するために、さまざまなオープンソース LLM の語彙を利用します。
ADT は、手動で構築された ADT-Human と自動生成された ADT-Auto の 2 つのサブセットで構成されます。
私たちの経験的結果は、私たちの ADT が GPT-4o、Llama-3、Qwen2.5-max などの主要な LLM のトークン化に対抗するのに非常に効果的であることを明らかにし、したがってこれらの LLM の機能を低下させます。
さらに、当社の自動データ生成方法は効率的かつ堅牢であることが証明されており、あらゆるオープンソース LLM に適用できます。
私たちの知る限り、私たちの研究は、トークンのセグメンテーションへの挑戦という観点から LLM の脆弱性を調査した最初の研究であり、トークン化プロセスとアルゴリズムの最適化を通じて LLM の機能を向上させるその後の研究に光を当てることになるでしょう。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable capabilities in language understanding and generation. Nonetheless, it was also witnessed that LLMs tend to produce inaccurate responses to specific queries. This deficiency can be traced to the tokenization step LLMs must undergo, which is an inevitable limitation inherent to all LLMs. In fact, incorrect tokenization is the critical point that hinders LLMs in understanding the input precisely, thus leading to unsatisfactory output. To demonstrate this flaw of LLMs, we construct an adversarial dataset, named as $\textbf{ADT (Adversarial Dataset for Tokenizer)}$, which draws upon the vocabularies of various open-source LLMs to challenge LLMs’ tokenization. ADT consists of two subsets: the manually constructed ADT-Human and the automatically generated ADT-Auto. Our empirical results reveal that our ADT is highly effective on challenging the tokenization of leading LLMs, including GPT-4o, Llama-3, Qwen2.5-max and so on, thus degrading these LLMs’ capabilities. Moreover, our method of automatic data generation has been proven efficient and robust, which can be applied to any open-source LLMs. To the best of our knowledge, our study is the first to investigating LLMs’ vulnerability in terms of challenging their token segmentation, which will shed light on the subsequent research of improving LLMs’ capabilities through optimizing their tokenization process and algorithms.

arxiv情報

著者 Dixuan Wang,Yanda Li,Junyuan Jiang,Zepeng Ding,Guochao Jiang,Jiaqing Liang,Deqing Yang
発行日 2024-05-27 11:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク