Do Androids Know They’re Only Dreaming of Electric Sheep?

要約

私たちは、コンテキスト内生成タスクでの幻覚動作を予測する、トランスフォーマー言語モデルの内部表現でトレーニングされたプローブを設計します。
この検出を容易にするために、いくつかのタスクにわたる器質的幻覚と合成幻覚のスパンアノテーション付きデータセットを作成します。
私たちは、合成幻覚の力で解読された状態について訓練されたプローブは、一般に器質的幻覚の検出において生態学的に無効であることを発見しました。
さらに、幻覚に関する隠れた状態情報はタスクと分布に依存しているようです。
内因性幻覚と外因性幻覚の顕著性は、層、隠れ状態の種類、タスクによって異なります。
特に、外因性幻覚はトランスフォーマーの内部表現においてより顕著になる傾向があります。
複数の現代のベースラインを上回るパフォーマンスを示し、モデルの状態が利用可能な場合、プロービングが言語モデルの幻覚評価に代わる実行可能かつ効率的な代替手段であることを示します。

要約(オリジナル)

We design probes trained on the internal representations of a transformer language model that are predictive of its hallucinatory behavior on in-context generation tasks. To facilitate this detection, we create a span-annotated dataset of organic and synthetic hallucinations over several tasks. We find that probes trained on the force-decoded states of synthetic hallucinations are generally ecologically invalid in organic hallucination detection. Furthermore, hidden state information about hallucination appears to be task and distribution-dependent. Intrinsic and extrinsic hallucination saliency varies across layers, hidden state types, and tasks; notably, extrinsic hallucinations tend to be more salient in a transformer’s internal representations. Outperforming multiple contemporary baselines, we show that probing is a feasible and efficient alternative to language model hallucination evaluation when model states are available.

arxiv情報

著者 Sky CH-Wang,Benjamin Van Durme,Jason Eisner,Chris Kedzie
発行日 2023-12-28 18:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク