When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1

要約

「自己回帰の残り火」 (McCoy et al., 2023) では、いくつかの大規模言語モデル (LLM) には、次の単語の予測に由来するいくつかの重要な制限があることを示しました。
ここでは、これらの問題が o1 で継続するかどうかを調査します。o1 は、推論用に最適化されているという点で以前の LLM とは異なる OpenAI の新しいシステムです。
o1 は多くの場合で以前の LLM よりも大幅に優れており、一般的なタスクのまれなバリエーション (例: リスト内の各単語の最初の文字ではなく 2 番目の文字から頭字語を作成するなど) が特に大幅に改善されていることがわかりました。
ただし、これらの量的な改善にもかかわらず、o1 は以前のシステムで観察されたのと同じ定性的な傾向を示しています。
具体的には、以前の LLM と同様に、o1 は例やタスクの確率に敏感であり、確率が低い設定よりも確率が高い設定の方がパフォーマンスが向上し、必要な「思考トークン」が少なくなります。
これらの結果は、推論用の言語モデルを最適化すると、言語モデルの確率感度を軽減できるものの、完全には克服できない可能性があることを示しています。

要約(オリジナル)

In ‘Embers of Autoregression’ (McCoy et al., 2023), we showed that several large language models (LLMs) have some important limitations that are attributable to their origins in next-word prediction. Here we investigate whether these issues persist with o1, a new system from OpenAI that differs from previous LLMs in that it is optimized for reasoning. We find that o1 substantially outperforms previous LLMs in many cases, with particularly large improvements on rare variants of common tasks (e.g., forming acronyms from the second letter of each word in a list, rather than the first letter). Despite these quantitative improvements, however, o1 still displays the same qualitative trends that we observed in previous systems. Specifically, o1 – like previous LLMs – is sensitive to the probability of examples and tasks, performing better and requiring fewer ‘thinking tokens’ in high-probability settings than in low-probability ones. These results show that optimizing a language model for reasoning can mitigate but might not fully overcome the language model’s probability sensitivity.

arxiv情報

著者 R. Thomas McCoy,Shunyu Yao,Dan Friedman,Mathew D. Hardy,Thomas L. Griffiths
発行日 2024-10-02 17:50:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク