GeNRe: A French Gender-Neutral Rewriting System Using Collective Nouns

要約

自然言語処理の分野(NLP)で使用されるテキストデータのかなりの部分は、特に男性のジェネリック(男性と女性の混合グループを参照することになっている男性的な単語)の使用により、性別の偏りを示します。
ジェンダーの書き換えは、性別のフォームを中立または反対のフォーム(例えば、男性から女性へ)で自動的に検出して置き換えることを伴うNLPタスクを使用して、これらのバイアスを軽減することができます。
そのようなシステムは多くの言語(英語、アラビア語、ポルトガル語、ドイツ語、フランス語)で開発されていますが、性別中和技術の自動使用(包括的または性別スイッチング技術とは対照的に)は英語のみが研究されています。
このペーパーでは、フランス語で固定された集団名詞を使用して、最初のフランスの性別中立の書き換えシステムであるジャンルを紹介します。
RBSによって生成されたデータでトレーニングされた2つの微調整された言語モデルとともに、フランス語向けに調整されたルールベースのシステム(RBS)を導入します。
また、他のシステムのパフォーマンスを向上させるために、指示ベースのモデルの使用を調査し、Claude 3 Opusと辞書がRBに近い結果を達成することを発見しました。
この貢献を通じて、フランス語のNLPにおける性別バイアス緩和技術の進歩を促進したいと考えています。

要約(オリジナル)

A significant portion of the textual data used in the field of Natural Language Processing (NLP) exhibits gender biases, particularly due to the use of masculine generics (masculine words that are supposed to refer to mixed groups of men and women), which can perpetuate and amplify stereotypes. Gender rewriting, an NLP task that involves automatically detecting and replacing gendered forms with neutral or opposite forms (e.g., from masculine to feminine), can be employed to mitigate these biases. While such systems have been developed in a number of languages (English, Arabic, Portuguese, German, French), automatic use of gender neutralization techniques (as opposed to inclusive or gender-switching techniques) has only been studied for English. This paper presents GeNRe, the very first French gender-neutral rewriting system using collective nouns, which are gender-fixed in French. We introduce a rule-based system (RBS) tailored for the French language alongside two fine-tuned language models trained on data generated by our RBS. We also explore the use of instruct-based models to enhance the performance of our other systems and find that Claude 3 Opus combined with our dictionary achieves results close to our RBS. Through this contribution, we hope to promote the advancement of gender bias mitigation techniques in NLP for French.

arxiv情報

著者 Enzo Doyen,Amalia Todirascu
発行日 2025-05-29 16:36:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GeNRe: A French Gender-Neutral Rewriting System Using Collective Nouns はコメントを受け付けていません

Are Reasoning Models More Prone to Hallucination?

要約

最近進化した大規模な推論モデル(LRMS)は、長い考え方(COT)の推論能力を備えた複雑なタスクを解決する上で強力なパフォーマンスを示しています。
これらのLRMは、主に正式な推論タスクに関するトレーニング後に開発されているため、実際に求めるタスクの幻覚を減らすのに役立つ推論能力を一般化するかどうかは不明で議論されています。
たとえば、DeepSeek-R1は、事実を求めるベンチマークであるSimpleQAのパフォーマンスの向上を報告していますが、Openai-O3はさらに厳しい幻覚を観察しています。
この矛盾は、自然に次の研究の質問を提起します:推論モデルは幻覚を起こしやすいですか?
このペーパーでは、3つの視点から質問に対処します。
(1)最初にLRMSの幻覚について全体的な評価を実施します。
私たちの分析により、LRMSは、コールドスタートの監視微調整(SFT)と検証可能な報酬RLが一般的に幻覚を軽減する完全なトレーニング後のパイプラインを受けることが明らかになりました。
対照的に、蒸留のみとコールドスタートのないRLトレーニングの両方が、より微妙な幻覚を導入します。
(2)さまざまなトレーニング後のパイプラインがLRMSの幻覚への影響を変える理由を調査するために、行動分析を実施します。
LRMの事実に直接影響する2つの重要な認知行動を特徴付けます:欠陥の繰り返し。表面レベルの推論の試みは、同じ基礎となる欠陥の論理に繰り返し続き、最後の回答が以前のCOTプロセスと忠実に一致することに失敗します。
(3)さらに、モデルの不確実性の観点からLRMSの幻覚の背後にあるメカニズムを調査します。
LRMSの幻覚の増加は、通常、モデルの不確実性と事実上の精度との間の不整合に関連していることがわかります。
私たちの作品は、LRMSの幻覚の最初の理解を提供します。

要約(オリジナル)

Recently evolved large reasoning models (LRMs) show powerful performance in solving complex tasks with long chain-of-thought (CoT) reasoning capability. As these LRMs are mostly developed by post-training on formal reasoning tasks, whether they generalize the reasoning capability to help reduce hallucination in fact-seeking tasks remains unclear and debated. For instance, DeepSeek-R1 reports increased performance on SimpleQA, a fact-seeking benchmark, while OpenAI-o3 observes even severer hallucination. This discrepancy naturally raises the following research question: Are reasoning models more prone to hallucination? This paper addresses the question from three perspectives. (1) We first conduct a holistic evaluation for the hallucination in LRMs. Our analysis reveals that LRMs undergo a full post-training pipeline with cold start supervised fine-tuning (SFT) and verifiable reward RL generally alleviate their hallucination. In contrast, both distillation alone and RL training without cold start fine-tuning introduce more nuanced hallucinations. (2) To explore why different post-training pipelines alters the impact on hallucination in LRMs, we conduct behavior analysis. We characterize two critical cognitive behaviors that directly affect the factuality of a LRM: Flaw Repetition, where the surface-level reasoning attempts repeatedly follow the same underlying flawed logic, and Think-Answer Mismatch, where the final answer fails to faithfully match the previous CoT process. (3) Further, we investigate the mechanism behind the hallucination of LRMs from the perspective of model uncertainty. We find that increased hallucination of LRMs is usually associated with the misalignment between model uncertainty and factual accuracy. Our work provides an initial understanding of the hallucination in LRMs.

arxiv情報

著者 Zijun Yao,Yantao Liu,Yanxu Chen,Jianhui Chen,Junfeng Fang,Lei Hou,Juanzi Li,Tat-Seng Chua
発行日 2025-05-29 16:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Are Reasoning Models More Prone to Hallucination? はコメントを受け付けていません

Small Language Models: Architectures, Techniques, Evaluation, Problems and Future Adaptation

要約

小言語モデル(SLM)は、より少ないコンピューターリソースを使用しながら、多様な言語タスクを正常に実行する能力により、大きな注目を集めています。
これらのモデルは、モバイルデバイス、デバイス上の処理、エッジシステムなどの限られた環境での展開に特に理想的です。
この研究では、SLMの完全な評価を提示し、モデルのサイズと複雑さを下げるための設計フレームワーク、トレーニングアプローチ、および技術に焦点を当てています。
剪定、量子化、モデル圧縮などの戦略を含むSLMに適用される最適化アプローチを整理するための新しい分類システムを提供します。
さらに、SLMの既存のデータセットを使用して評価スイートのSLMの研究を組み立て、SLM機能を測定するための厳しいプラットフォームを確立します。
これに加えて、効率とパフォーマンスのトレードオフを含む、この分野で未解決のままである重要な困難について説明し、将来の研究の方向性を提案します。
この研究は、コンパクトで効率的で高性能な言語モデルを構築することを目的とした研究者と実践者のための有益なガイドとして役立つと予想しています。

要約(オリジナル)

Small Language Models (SLMs) have gained substantial attention due to their ability to execute diverse language tasks successfully while using fewer computer resources. These models are particularly ideal for deployment in limited environments, such as mobile devices, on-device processing, and edge systems. In this study, we present a complete assessment of SLMs, focussing on their design frameworks, training approaches, and techniques for lowering model size and complexity. We offer a novel classification system to organize the optimization approaches applied for SLMs, encompassing strategies like pruning, quantization, and model compression. Furthermore, we assemble SLM’s studies of evaluation suite with some existing datasets, establishing a rigorous platform for measuring SLM capabilities. Alongside this, we discuss the important difficulties that remain unresolved in this sector, including trade-offs between efficiency and performance, and we suggest directions for future study. We anticipate this study to serve as a beneficial guide for researchers and practitioners who aim to construct compact, efficient, and high-performing language models.

arxiv情報

著者 Tanjil Hasan Sakib,Md. Tanzib Hosain,Md. Kishor Morol
発行日 2025-05-29 16:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Small Language Models: Architectures, Techniques, Evaluation, Problems and Future Adaptation はコメントを受け付けていません

ARC: Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs

要約

構造化された情報を統合することで、特に顕著なコンテンツの保持において、抽象的な要約の品質が長い間向上しました。
この作業では、特定の形式の構造に焦点を当てています。これは、法律などのハイステークスドメインでドキュメントを要約するために重要です。
この情報を適切に保存するかどうかを調査します。
この目的のために、LLMで生成された要約を測定するためのフレームワークである引数表現カバレッジ(ARC)を紹介します。
ARCを使用して、議論の役割が中心である2つのドメインで3つのオープンウェイトLLMによって生成された要約を分析します:長い法的意見と科学記事。
私たちの結果は、LLMSが顕著な引数の役割をある程度カバーする一方で、特に入力全体に引数がまばらに分布している場合、生成された要約で重要な情報が省略されることが多いことを示しています。
さらに、ARCを使用して行動パターンを明らかにします。具体的には、LLMコンテキストウィンドウとロール固有の好みの位置バイアスが、生成された要約における重要な引数のカバレッジにどのように影響し、より多くの議論を意識する要約戦略の必要性を強調します。

要約(オリジナル)

Integrating structured information has long improved the quality of abstractive summarization, particularly in retaining salient content. In this work, we focus on a specific form of structure: argument roles, which are crucial for summarizing documents in high-stakes domains such as law. We investigate whether instruction-tuned large language models (LLMs) adequately preserve this information. To this end, we introduce Argument Representation Coverage (ARC), a framework for measuring how well LLM-generated summaries capture salient arguments. Using ARC, we analyze summaries produced by three open-weight LLMs in two domains where argument roles are central: long legal opinions and scientific articles. Our results show that while LLMs cover salient argument roles to some extent, critical information is often omitted in generated summaries, particularly when arguments are sparsely distributed throughout the input. Further, we use ARC to uncover behavioral patterns — specifically, how the positional bias of LLM context windows and role-specific preferences impact the coverage of key arguments in generated summaries, emphasizing the need for more argument-aware summarization strategies.

arxiv情報

著者 Mohamed Elaraby,Diane Litman
発行日 2025-05-29 17:04:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ARC: Argument Representation and Coverage Analysis for Zero-Shot Long Document Summarization with Instruction Following LLMs はコメントを受け付けていません

ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions

要約

大規模な言語モデル(LLMS)は、外部ツールを使用してユーザーの問い合わせに対処するための強力な機能を実証しています。
ただし、ほとんどの既存の評価は、短いコンテキストでツールの使用を想定しており、現実的な長期的な相互作用中のモデル行動に関する限られた洞察を提供します。
このギャップを埋めるために、ToolhayStackを紹介します。これは、長期的な相互作用でツール使用機能をテストするためのベンチマークです。
ToolhayStackの各テストインスタンスには、継続的な会話の中で複数のタスクの実行コンテキストと現実的なノイズが含まれており、モデルがコンテキストを維持し、さまざまな混乱を処理する方法の評価を可能にします。
このベンチマークを14の最先端のLLMに適用することにより、現在のモデルは標準的なマルチターン設定でうまく機能しますが、ツールヘイスタックで大幅に苦労し、以前のツールベンチマークでは明らかにされていない長期的な堅牢性の重要なギャップを強調することがよくあります。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong capabilities in using external tools to address user inquiries. However, most existing evaluations assume tool use in short contexts, offering limited insight into model behavior during realistic long-term interactions. To fill this gap, we introduce ToolHaystack, a benchmark for testing the tool use capabilities in long-term interactions. Each test instance in ToolHaystack includes multiple tasks execution contexts and realistic noise within a continuous conversation, enabling assessment of how well models maintain context and handle various disruptions. By applying this benchmark to 14 state-of-the-art LLMs, we find that while current models perform well in standard multi-turn settings, they often significantly struggle in ToolHaystack, highlighting critical gaps in their long-term robustness not revealed by previous tool benchmarks.

arxiv情報

著者 Beong-woo Kwak,Minju Kim,Dongha Lim,Hyungjoo Chae,Dongjin Kang,Sunghwan Kim,Dongil Yang,Jinyoung Yeo
発行日 2025-05-29 17:10:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions はコメントを受け付けていません

Multilingual Question Answering in Low-Resource Settings: A Dzongkha-English Benchmark for Foundation Models

要約

この作業では、ブータンの中学生と高校生向けの並行したDzongkhaのデータセットであるDzenを提供します。
私たちのコレクションの5K以上の質問には、さまざまな科学的トピックに及び、事実、応用、および推論に基づく質問が含まれます。
並列データセットを使用して、多くの大規模な言語モデル(LLM)をテストし、英語とDzongkhaのモデル間に大きなパフォーマンスの違いを見つけます。
また、さまざまなプロンプト戦略を検討し、推論の質問に適しているが、事実の質問ではあまりうまくいかないことを発見します。
また、英語の翻訳を追加すると、ゾンカの質問応答の精度が向上することがわかります。
私たちの結果は、Dzongkha、より一般的には低資源の言語でのLLMパフォーマンスを改善するためのさらなる研究のためのエキサイティングな道を指摘しています。
https://github.com/kraritt/llm_dzongkha_evaluationでデータセットをリリースします。

要約(オリジナル)

In this work, we provide DZEN, a dataset of parallel Dzongkha and English test questions for Bhutanese middle and high school students. The over 5K questions in our collection span a variety of scientific topics and include factual, application, and reasoning-based questions. We use our parallel dataset to test a number of Large Language Models (LLMs) and find a significant performance difference between the models in English and Dzongkha. We also look at different prompting strategies and discover that Chain-of-Thought (CoT) prompting works well for reasoning questions but less well for factual ones. We also find that adding English translations enhances the precision of Dzongkha question responses. Our results point to exciting avenues for further study to improve LLM performance in Dzongkha and, more generally, in low-resource languages. We release the dataset at: https://github.com/kraritt/llm_dzongkha_evaluation.

arxiv情報

著者 Md. Tanzib Hosain,Rajan Das Gupta,Md. Kishor Morol
発行日 2025-05-29 17:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multilingual Question Answering in Low-Resource Settings: A Dzongkha-English Benchmark for Foundation Models はコメントを受け付けていません

LoLA: Low-Rank Linear Attention With Sparse Caching

要約

変圧器ベースの大手言語モデルは、長いシーケンスの推論で二次複雑さに悩まされています。
線形注意方法は効率的な代替品ですが、ソフトマックスの注意の正確な近似を提供できません。
さらに、各線形注意ヘッドにスライディングウィンドウの注意を組み込むことにより、このギャップは短いコンテキスト長タスクのために閉じることができます。
残念ながら、これらのアプローチは、「メモリの衝突」のために長い文脈から重要な情報を思い出せません。
このホワイトペーパーでは、Lolaを提案します。まばらなキャッシングを使用した低ランクの線形注意。
Lolaは、過去の連想記憶を妨げる追加のキー価値ペアを個別に保存します。
さらに、Lolaは、過去のキー価値ペアを3つの形式のメモリに分配することにより、線形注意モデルとトランスの間のギャップをさらに閉じます。(i)ローカルスライドウィンドウの最近のペア。
(ii)まばらでグローバルなキャッシュの中で、モモの困難なペア。
(iii)線形注意の再発性隠された状態における一般的なペア。
推論のみの戦略として、Lolaは、RulerのHeadle-in-a-Haystackタスクで最大8kのコンテキストの長さでパスキー検索を有効にします。
4Kコンテキストの長さでベースサブクォドラティックモデルの精度を0.6%から97.4%に高め、llama-3.18bのキャッシュよりも4.6倍小さいキャッシュを備えています。
Lolaは、1Bおよび8Bパラメーターのサブクアドラティスモデルの間で、ゼロショットの常識推論タスクで強力なパフォーマンスを示しています。
最後に、Lolaは非常に軽量のアプローチです。私たちの結果のほぼすべては、単一の消費者GPUで再現できます。

要約(オリジナル)

Transformer-based large language models suffer from quadratic complexity at inference on long sequences. Linear attention methods are efficient alternatives, however, they fail to provide an accurate approximation of softmax attention. By additionally incorporating sliding window attention into each linear attention head, this gap can be closed for short context-length tasks. Unfortunately, these approaches cannot recall important information from long contexts due to ‘memory collisions’. In this paper , we propose LoLA: Low-rank Linear Attention with sparse caching. LoLA separately stores additional key-value pairs that would otherwise interfere with past associative memories. Moreover, LoLA further closes the gap between linear attention models and transformers by distributing past key-value pairs into three forms of memory: (i) recent pairs in a local sliding window; (ii) difficult-to-memorize pairs in a sparse, global cache; and (iii) generic pairs in the recurrent hidden state of linear attention. As an inference-only strategy, LoLA enables pass-key retrieval on up to 8K context lengths on needle-in-a-haystack tasks from RULER. It boosts the accuracy of the base subquadratic model from 0.6% to 97.4% at 4K context lengths, with a 4.6x smaller cache than that of Llama-3.1 8B. LoLA demonstrates strong performance on zero-shot commonsense reasoning tasks among 1B and 8B parameter subquadratic models. Finally, LoLA is an extremely lightweight approach: Nearly all of our results can be reproduced on a single consumer GPU.

arxiv情報

著者 Luke McDermott,Robert W. Heath Jr.,Rahul Parhi
発行日 2025-05-29 17:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | LoLA: Low-Rank Linear Attention With Sparse Caching はコメントを受け付けていません

Automatic classification of stop realisation with wav2vec2.0

要約

現代の音声研究は、音声データの注釈のために自動ツールを定期的に使用していますが、多くの可変音声現象の注釈にはほとんど存在しません。
同時に、WAV2VEC2.0などの事前に訓練された自己監視モデルは、音声分類タスクでうまく機能し、微妙に細粒の音声情報をエンコードすることが示されています。
WAV2VEC2.0モデルをトレーニングして、英語と日本語の両方で高精度で停止バーストの存在を自動的に分類できることを実証します。
停止実現における変動性のパターンは、自動注釈で複製され、手動注釈のパターンに密接に従います。
これらの結果は、スピーチコーパスデータの自動注釈と処理のツールとしての事前に訓練された音声モデルの可能性を示しており、研究者が比較的容易に音声研究の範囲を「スケールアップ」できるようにします。

要約(オリジナル)

Modern phonetic research regularly makes use of automatic tools for the annotation of speech data, however few tools exist for the annotation of many variable phonetic phenomena. At the same time, pre-trained self-supervised models, such as wav2vec2.0, have been shown to perform well at speech classification tasks and latently encode fine-grained phonetic information. We demonstrate that wav2vec2.0 models can be trained to automatically classify stop burst presence with high accuracy in both English and Japanese, robust across both finely-curated and unprepared speech corpora. Patterns of variability in stop realisation are replicated with the automatic annotations, and closely follow those of manual annotations. These results demonstrate the potential of pre-trained speech models as tools for the automatic annotation and processing of speech corpus data, enabling researchers to `scale-up’ the scope of phonetic research with relative ease.

arxiv情報

著者 James Tanner,Morgan Sonderegger,Jane Stuart-Smith,Jeff Mielke,Tyler Kendall
発行日 2025-05-29 17:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Automatic classification of stop realisation with wav2vec2.0 はコメントを受け付けていません

Child-Directed Language Does Not Consistently Boost Syntax Learning in Language Models

要約

Huebnerらによる独創的な研究。
(2021)英語の子供向け言語(CDL)で訓練された言語モデル(LMS)は、LMSが大量の大人向けの文書テキストで訓練されているため、同様の構文能力に達することができることを示し、CDLは一般的に使用されるインターネットでクローされたデータよりも効果的なLMトレーニング資料を提供できることを示唆しています。
ただし、言語、モデルタイプ、および評価設定を介したこれらの結果の一般化可能性は不明のままです。
これをテストし、2つのLM目標(マスクされた因果関係)、3つの言語(英語、フランス語、ドイツ語)、および3つの構文最小ペアベンチマークでCDLとウィキペディアでトレーニングされたモデルを比較してテストします。
これらのベンチマークでの結果は、CDLの一貫性のない利点を示しています。これは、ほとんどの場合、ウィキペディアモデルではアウトパフォームされています。
次に、以前のベンチマークでさまざまな欠点を特定し、周波数制御された設計を使用してトレーニングコーポラ間のバランスの取れた比較を可能にする新しいテスト方法であるFit-clamsを導入します。
最小限のペア評価と回帰分析により、CDLのトレーニングが構文を取得するためのより強力な一般化をもたらさないことを示し、構文能力を評価する際に周波数効果を制御することの重要性を強調します。

要約(オリジナル)

Seminal work by Huebner et al. (2021) showed that language models (LMs) trained on English Child-Directed Language (CDL) can reach similar syntactic abilities as LMs trained on much larger amounts of adult-directed written text, suggesting that CDL could provide more effective LM training material than the commonly used internet-crawled data. However, the generalizability of these results across languages, model types, and evaluation settings remains unclear. We test this by comparing models trained on CDL vs. Wikipedia across two LM objectives (masked and causal), three languages (English, French, German), and three syntactic minimal-pair benchmarks. Our results on these benchmarks show inconsistent benefits of CDL, which in most cases is outperformed by Wikipedia models. We then identify various shortcomings in previous benchmarks, and introduce a novel testing methodology, FIT-CLAMS, which uses a frequency-controlled design to enable balanced comparisons across training corpora. Through minimal pair evaluations and regression analysis we show that training on CDL does not yield stronger generalizations for acquiring syntax and highlight the importance of controlling for frequency effects when evaluating syntactic ability.

arxiv情報

著者 Francesca Padovani,Jaap Jumelet,Yevgen Matusevych,Arianna Bisazza
発行日 2025-05-29 17:25:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Child-Directed Language Does Not Consistently Boost Syntax Learning in Language Models はコメントを受け付けていません

Can LLMs Reason Abstractly Over Math Word Problems Without CoT? Disentangling Abstract Formulation From Arithmetic Computation

要約

最終回答ベースのメトリックは、一般に、数学の単語の問題に関する大規模な言語モデル(LLM)を評価するために使用され、多くの場合、推論能力のプロキシとして採用されます。
ただし、このようなメトリックは、2つの異なるサブスキルを混同します。抽象的な定式化(式を使用した数学的関係のキャプチャ)と算術計算(計算の実行)。
GSM8KとSVAMPに関する解きだれの評価により、COTのないLlama-3とQWEN2.5(1B-32B)の最終回答精度は、算術計算ステップによって圧倒的にボトルネックされており、アブストラクトフォーミュレーションステップではありません。
一般的な信念に反して、COTは主に計算に役立ち、抽象的な定式化には限られていることが示されます。
機械的には、これらの2つのスキルが、抽象的なコンピュートメカニズムを介して推論ステップなしで、単一のフォワードパスでも接続的に構成されていることを示します。モデルは最初に問題の抽象化をキャプチャし、次に計算を処理します。
因果パッチングにより、これらの抽象化が存在し、転送可能で、合成可能であり、計算の前に確認されます。
これらの行動および機構の発見は、LLMの推論を正確に評価し、将来の改善を導くために、解き明された評価の必要性を強調しています。

要約(オリジナル)

Final-answer-based metrics are commonly used for evaluating large language models (LLMs) on math word problems, often taken as proxies for reasoning ability. However, such metrics conflate two distinct sub-skills: abstract formulation (capturing mathematical relationships using expressions) and arithmetic computation (executing the calculations). Through a disentangled evaluation on GSM8K and SVAMP, we find that the final-answer accuracy of Llama-3 and Qwen2.5 (1B-32B) without CoT is overwhelmingly bottlenecked by the arithmetic computation step and not by the abstract formulation step. Contrary to the common belief, we show that CoT primarily aids in computation, with limited impact on abstract formulation. Mechanistically, we show that these two skills are composed conjunctively even in a single forward pass without any reasoning steps via an abstract-then-compute mechanism: models first capture problem abstractions, then handle computation. Causal patching confirms these abstractions are present, transferable, composable, and precede computation. These behavioural and mechanistic findings highlight the need for disentangled evaluation to accurately assess LLM reasoning and to guide future improvements.

arxiv情報

著者 Ziling Cheng,Meng Cao,Leila Pishdad,Yanshuai Cao,Jackie Chi Kit Cheung
発行日 2025-05-29 17:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can LLMs Reason Abstractly Over Math Word Problems Without CoT? Disentangling Abstract Formulation From Arithmetic Computation はコメントを受け付けていません