Multi-Step Reasoning in Korean and the Emergent Mirage

要約

韓国語に焦点を当て、文化的に特殊なコンテキストで多段階推論を実行する大規模言語モデルの能力を評価するために設計されたベンチマークである HRMCR (HAE-RAE Multi-Step Commonsense Reasoning) を紹介します。
質問はテンプレートとアルゴリズムによって自動的に生成されるため、LLM は韓国の文化的知識を一連の推論ステップに統合する必要があります。
創発的能力に関する以前の観察と一致して、私たちの実験では、 \(2 \cdot 10^{25}\) 未満のトレーニング FLOP でトレーニングされたモデルは問題を解くのに苦労し、ほぼゼロのパフォーマンスを示すことが明らかになりました。
このしきい値を超えると、パフォーマンスが急激に向上します。
最先端のモデル (O1 など) のスコアは依然として 50\% 未満であり、タスクの難しさを浮き彫りにしています。
特に、段階的な分析では、観察された緊急の動作は、真に新しい機能を反映しているのではなく、複数のステップにわたるエラーの複合に起因する可能性があることを示唆しています。
私たちはベンチマークを公開し、汚染を防ぐためにデータセットを定期的に更新することに取り組んでいます。

要約(オリジナル)

We introduce HRMCR (HAE-RAE Multi-Step Commonsense Reasoning), a benchmark designed to evaluate large language models’ ability to perform multi-step reasoning in culturally specific contexts, focusing on Korean. The questions are automatically generated via templates and algorithms, requiring LLMs to integrate Korean cultural knowledge into sequential reasoning steps. Consistent with prior observations on emergent abilities, our experiments reveal that models trained on fewer than \(2 \cdot 10^{25}\) training FLOPs struggle to solve any questions, showing near-zero performance. Beyond this threshold, performance improves sharply. State-of-the-art models (e.g., O1) still score under 50\%, underscoring the difficulty of our tasks. Notably, stepwise analysis suggests the observed emergent behavior may stem from compounding errors across multiple steps rather than reflecting a genuinely new capability. We publicly release the benchmark and commit to regularly updating the dataset to prevent contamination.

arxiv情報

著者 Guijin Son,Hyunwoo Ko,Dasol Choi
発行日 2025-01-10 05:07:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク