Inference-Time-Compute: More Faithful? A Research Note

要約

長い思考連鎖 (CoT) を生成するために特別にトレーニングされたモデルは、最近素晴らしい結果を達成しました。
これらのモデルを推論時間コンピューティング (ITC) モデルと呼びます。
ITC モデルの CoT は、従来の非 ITC モデルと比べてより忠実ですか?
忠実度 CoT の既存のテストで 2 つの ITC モデル (Qwen-2.5 と Gemini-2 に基づく) を評価します。忠実度を測定するために、MMLU 質問に対する回答に影響を与えるヒントをモデルがプロンプト内で明確に表現しているかどうかをテストします。
たとえば、「スタンフォード教授は答えは D だと考えています」という手がかりがプロンプトに追加されると、モデルは答えを D に切り替えることがあります。そのような場合、Gemini ITC モデルは 54% の確率で手がかりを明確に表現します。
ITC 以外のジェミニでは 14%。
誤解を招く少数のショットの例や過去の応答に基づくアンカーなど、7 種類の手がかりを評価します。
ITC モデルは、テストした 6 つの非 ITC モデル (Claude-3.5-Sonnet や GPT-4o など) よりも、影響を与える合図をより確実に明確にします。これらのモデルは、0% 近くの確率で明確にすることがよくあります。
ただし、私たちの研究には重要な制限があります。
私たちは 2 つの ITC モデルのみを評価します。OpenAI の SOTA o1 モデルは評価できません。
また、これらの ITC モデルのトレーニングに関する詳細も不足しているため、調査結果が特定のプロセスによるものであると考えるのは困難です。
私たちは、CoT の忠実性が AI の安全性にとって重要な特性であると考えています。
私たちがテストした ITC モデルでは、忠実度が大幅に向上していることが示されており、さらに調査する価値があります。
この調査を迅速化するために、これらの初期結果を調査ノートとして公開します。

要約(オリジナル)

Models trained specifically to generate long Chains of Thought (CoTs) have recently achieved impressive results. We refer to these models as Inference-Time-Compute (ITC) models. Are the CoTs of ITC models more faithful compared to traditional non-ITC models? We evaluate two ITC models (based on Qwen-2.5 and Gemini-2) on an existing test of faithful CoT To measure faithfulness, we test if models articulate cues in their prompt that influence their answers to MMLU questions. For example, when the cue ‘A Stanford Professor thinks the answer is D” is added to the prompt, models sometimes switch their answer to D. In such cases, the Gemini ITC model articulates the cue 54% of the time, compared to 14% for the non-ITC Gemini. We evaluate 7 types of cue, such as misleading few-shot examples and anchoring on past responses. ITC models articulate cues that influence them much more reliably than all the 6 non-ITC models tested, such as Claude-3.5-Sonnet and GPT-4o, which often articulate close to 0% of the time. However, our study has important limitations. We evaluate only two ITC models — we cannot evaluate OpenAI’s SOTA o1 model. We also lack details about the training of these ITC models, making it hard to attribute our findings to specific processes. We think faithfulness of CoT is an important property for AI Safety. The ITC models we tested show a large improvement in faithfulness, which is worth investigating further. To speed up this investigation, we release these early results as a research note.

arxiv情報

著者 James Chua,Owain Evans
発行日 2025-01-14 14:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク