要約
大規模な言語モデル(LLMS)は、幅広い自然言語処理(NLP)タスクにわたって強力な一般化能力を実証しています。
ただし、キャラクターレベルの文字列操作に顕著な弱点を示し、文字の削除、挿入、代替などの基本的な操作に苦労しています。
これらの課題は、データの前処理とコード生成におけるそのような操作の重要な役割にもかかわらず、主にトークン化の制約に起因します。
体系的な分析を通じて、2つの重要な洞察を導き出します。(1)LLMSは、キャラクターレベルの推論のために固有のトークン知識を活用することに重大な困難に直面し、(2)霧化された単語構造は、トークンレベルの構造情報を処理するLLMSの能力を大幅に高めることができます。
これらの洞察に基づいて、トークンレベルの処理とキャラクターレベルの操作のギャップを埋めるために設計された斬新なアプローチであるDivid and Conquerを介して、キャラクターレベルの操作を提案します。
私たちの方法は、複雑な操作を制御されたトークン再構成フェーズと組み合わせた明示的な文字レベルのサブタスクに分解し、精度の大幅な改善をもたらします。
追加のトレーニングがなければ、この方法は、$ \ texttt {deletion} $、$ \ texttt {insertion} $、および$ \ texttt {autrition} $タスクの精度を大幅に改善します。
さらなる調査をサポートするために、実装とベンチマークをオープンソースします。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated strong generalization capabilities across a wide range of natural language processing (NLP) tasks. However, they exhibit notable weaknesses in character-level string manipulation, struggling with fundamental operations such as character deletion, insertion, and substitution. These challenges stem primarily from tokenization constraints, despite the critical role of such operations in data preprocessing and code generation. Through systematic analysis, we derive two key insights: (1) LLMs face significant difficulties in leveraging intrinsic token knowledge for character-level reasoning, and (2) atomized word structures can substantially enhance LLMs’ ability to process token-level structural information. Building on these insights, we propose Character-Level Manipulation via Divide and Conquer, a novel approach designed to bridge the gap between token-level processing and character-level manipulation. Our method decomposes complex operations into explicit character-level subtasks coupled with controlled token reconstruction phases, leading to significant improvements in accuracy. Without additional training, our method significantly improves accuracies on the $\texttt{Deletion}$, $\texttt{Insertion}$, and $\texttt{Substitution}$ tasks. To support further research, we open-source our implementation and benchmarks.
arxiv情報
著者 | Zhen Xiong,Yujun Cai,Bryan Hooi,Nanyun Peng,Zhecheng Li,Yiwei Wang |
発行日 | 2025-03-27 16:07:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google