System 2 Attention (is something you might need too)

要約

Transformer ベースの大規模言語モデル (LLM) におけるソフト アテンションは、コンテキストからの無関係な情報を潜在的な表現に組み込む可能性があり、次のトークン生成に悪影響を及ぼします。
これらの問題を修正するために、私たちはシステム 2 アテンション (S2A) を導入しました。これは LLM の自然言語で推論し、指示に従う能力を利用して、何に注意すべきかを決定します。
S2A は、再生成されたコンテキストに注目して最終応答を引き出す前に、関連部分のみを含むように入力コンテキストを再生成します。
実験では、S2A は、意見や無関係な情報、QA、数学の文章問題、長文生成を含む 3 つのタスクで、標準的な注意ベースの LLM よりも優れたパフォーマンスを示し、S2A は事実性と客観性を高め、お調子者を減らしました。

要約(オリジナル)

Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

arxiv情報

著者 Jason Weston,Sainbayar Sukhbaatar
発行日 2023-11-20 15:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク