Exposing Attention Glitches with Flip-Flop Language Modeling

要約

大規模な言語モデルが事実の不正確さを出力したり、誤った推論を示したりすることがあるのはなぜですか?
これらのモデルの脆弱性は、特に長い推論連鎖を実行する場合に、現在、知識、実用論、抽象的思考を一貫して統合する高度な機能に対して支払う避けられない代償であると思われます。
この根本的に未解決の問題を理解するために、この研究では、Transformer アーキテクチャの誘導バイアスが断続的に堅牢な推論を捕捉できない、注意力のグリッチの現象を特定して分析します。
問題を切り分けるために、ニューラル言語モデルの外挿動作を調査するために設計された合成ベンチマークのパラメトリック ファミリであるフリップフロップ言語モデリング (FFLM) を導入します。
この単純な生成タスクでは、間のトークンを無視して、長距離の依存関係にわたってバイナリ シンボルをコピーするモデルが必要です。
Transformer FFLM には散発的な推論エラーのロングテールが発生しており、その一部はさまざまな正則化手法を使用して除去できることがわかりました。
私たちの予備的なメカニズム分析により、残りのエラーの診断と解決が非常に難しい理由がわかります。
私たちは、注意力の欠陥が自然の LLM における閉領域幻覚 (の一部) の原因であると仮説を立てています。

要約(オリジナル)

Why do large language models sometimes output factual inaccuracies and exhibit erroneous reasoning? The brittleness of these models, particularly when executing long chains of reasoning, currently seems to be an inevitable price to pay for their advanced capabilities of coherently synthesizing knowledge, pragmatics, and abstract thought. Towards making sense of this fundamentally unsolved problem, this work identifies and analyzes the phenomenon of attention glitches, in which the Transformer architecture’s inductive biases intermittently fail to capture robust reasoning. To isolate the issue, we introduce flip-flop language modeling (FFLM), a parametric family of synthetic benchmarks designed to probe the extrapolative behavior of neural language models. This simple generative task requires a model to copy binary symbols over long-range dependencies, ignoring the tokens in between. We find that Transformer FFLMs suffer from a long tail of sporadic reasoning errors, some of which we can eliminate using various regularization techniques. Our preliminary mechanistic analyses show why the remaining errors may be very difficult to diagnose and resolve. We hypothesize that attention glitches account for (some of) the closed-domain hallucinations in natural LLMs.

arxiv情報

著者 Bingbin Liu,Jordan T. Ash,Surbhi Goel,Akshay Krishnamurthy,Cyril Zhang
発行日 2023-06-01 17:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク