要約
大規模な言語モデル(LLM)はさまざまなドメインで顕著な進歩を遂げていますが、繰り返しのテキスト生成に苦しむことがよくあります。これは、「繰り返しの呪い」と呼ばれる現象です。
以前の研究では、繰り返しを緩和するための解読戦略を提案していますが、この問題の背後にある根本的なメカニズムは不十分に調査されています。
この作業では、機械的解釈可能性のレンズを介してLLMの繰り返しの根本原因を調査します。
単調な特徴抽出を可能にするスパースオートエンコーダー(SAE)の最近の進歩に触発され、繰り返しの呪いを誘導および分析するために、新しいアプローチ「Duplicatus Charm」を提案します。
私たちの方法は、「繰り返し機能」を体系的に識別します。これは、繰り返し出力を生成するための主要なモデルのアクティベーションです。
まず、ロジット分析を通じて繰り返しに最も関与するレイヤーを見つけます。
次に、SAEベースのアクティベーション操作を使用して、関連する機能を抽出および刺激します。
アプローチを検証するために、トークンとパラグラフレベルの繰り返しをカバーする繰り返しデータセットを構築し、特定された繰り返し機能の影響を定量化するための評価パイプラインを導入します。
さらに、これらの機能を非アクティブ化することにより、繰り返しの呪いを効果的に軽減しました。
要約(オリジナル)
Large language models (LLMs) have made remarkable progress in various domains, yet they often suffer from repetitive text generation, a phenomenon we refer to as the ‘Repeat Curse’. While previous studies have proposed decoding strategies to mitigate repetition, the underlying mechanism behind this issue remains insufficiently explored. In this work, we investigate the root causes of repetition in LLMs through the lens of mechanistic interpretability. Inspired by recent advances in Sparse Autoencoders (SAEs), which enable monosemantic feature extraction, we propose a novel approach, ‘Duplicatus Charm’, to induce and analyze the Repeat Curse. Our method systematically identifies ‘Repetition Features’ -the key model activations responsible for generating repetitive outputs. First, we locate the layers most involved in repetition through logit analysis. Next, we extract and stimulate relevant features using SAE-based activation manipulation. To validate our approach, we construct a repetition dataset covering token and paragraph level repetitions and introduce an evaluation pipeline to quantify the influence of identified repetition features. Furthermore, by deactivating these features, we have effectively mitigated the Repeat Curse.
arxiv情報
著者 | Junchi Yao,Shu Yang,Jianhua Xu,Lijie Hu,Mengdi Li,Di Wang |
発行日 | 2025-05-21 16:59:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google