Wait, We Don’t Need to ‘Wait’! Removing Thinking Tokens Improves Reasoning Efficiency

要約

大規模な推論モデルの最近の進歩により、複雑で段階的な推論が可能になりましたが、多くの場合、重大な考え直しを導入し、効率を妨げる冗長で冗長な出力をもたらします。
この研究では、「待機」や「うーん」などのトークンによって示される明示的な自己反省が、高度な推論に必要であるかどうかを調べます。
私たちは、推論中にこれらのトークンを抑制することにより明示的な自己反省を無効にするシンプルで効果的なアプローチであるNowaitを提案します。
テキスト、ビジュアル、およびビデオ推論のタスクにわたる10のベンチマークでの広範な実験は、モデルの有用性を妥協することなく、5つのR1スタイルモデルシリーズで、現在の考え方の軌跡の長さを最大27%-51%削減することを示しています。
したがって、Nowaitは、効率的でユーティリティを提供するマルチモーダル推論のためのプラグアンドプレイソリューションを提供します。

要約(オリジナル)

Recent advances in large reasoning models have enabled complex, step-by-step reasoning but often introduce significant overthinking, resulting in verbose and redundant outputs that hinder efficiency. In this study, we examine whether explicit self-reflection, signaled by tokens such as ‘Wait’ and ‘Hmm’, is necessary for advanced reasoning. We propose NoWait, a simple yet effective approach that disables explicit self-reflection by suppressing these tokens during inference. Extensive experiments on ten benchmarks across textual, visual, and video reasoning tasks show that NoWait reduces chain-of-thought trajectory length by up to 27%-51% in five R1-style model series, without compromising model utility. NoWait thus offers a plug-and-play solution for efficient and utility-preserving multimodal reasoning.

arxiv情報

著者 Chenlong Wang,Yuanning Feng,Dongping Chen,Zhaoyang Chu,Ranjay Krishna,Tianyi Zhou
発行日 2025-06-18 14:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Wait, We Don’t Need to ‘Wait’! Removing Thinking Tokens Improves Reasoning Efficiency はコメントを受け付けていません

Lessons from Training Grounded LLMs with Verifiable Rewards

要約

接地された信頼できる応答を生成することは、大規模な言語モデル(LLM)にとって重要な課題です。
引用ベースの接地を備えた検索された生成(RAG)は約束を保持していますが、命令調整モデルは、簡単なシナリオでも頻繁に失敗します。
この作業では、強化学習(RL)と内部推論がLLMSの接地を強化する方法を探ります。
GRPO(グループ相対ポリシーの最適化)メソッドを使用して、検証可能な結果ベースの報酬を使用してモデルをトレーニングします。
ASQA、QAMPARI、ELI5、およびExpertQAを介した包括的な実験を通じて、推論モデルは、特に未回答のクエリを処理して適切に引用された応答を生成する際に、命令のみのバリアントを大幅に上回ることを示しています。
2段階のトレーニングセットアップ、最初に回答と引用の動作を最適化し、次に拒否し、学習信号を安定化することにより、さらに接地を改善します。
さらに、GPT-4蒸留を介して命令の調整を再検討し、それをGRPOと組み合わせることで、長型の生成QAタスクのパフォーマンスが向上することがわかります。
全体として、私たちの調査結果は、より検証可能で信頼性の高いLLMを構築するための推論、段階的な最適化、および結果主導のRLの価値を強調しています。

要約(オリジナル)

Generating grounded and trustworthy responses remains a key challenge for large language models (LLMs). While retrieval-augmented generation (RAG) with citation-based grounding holds promise, instruction-tuned models frequently fail even in straightforward scenarios: missing explicitly stated answers, citing incorrectly, or refusing when evidence is available. In this work, we explore how reinforcement learning (RL) and internal reasoning can enhance grounding in LLMs. We use the GRPO (Group Relative Policy Optimization) method to train models using verifiable outcome-based rewards targeting answer correctness, citation sufficiency, and refusal quality, without requiring gold reasoning traces or expensive annotations. Through comprehensive experiments across ASQA, QAMPARI, ELI5, and ExpertQA we show that reasoning-augmented models significantly outperform instruction-only variants, especially in handling unanswerable queries and generating well-cited responses. A two-stage training setup, first optimizing answer and citation behavior and then refusal, further improves grounding by stabilizing the learning signal. Additionally, we revisit instruction tuning via GPT-4 distillation and find that combining it with GRPO enhances performance on long-form, generative QA tasks. Overall, our findings highlight the value of reasoning, stage-wise optimization, and outcome-driven RL for building more verifiable and reliable LLMs.

arxiv情報

著者 Shang Hong Sim,Tej Deep Pala,Vernon Toh,Hai Leong Chieu,Amir Zadeh,Chuan Li,Navonil Majumder,Soujanya Poria
発行日 2025-06-18 14:58:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Lessons from Training Grounded LLMs with Verifiable Rewards はコメントを受け付けていません

RATTENTION: Towards the Minimal Sliding Window Size in Local-Global Attention Models

要約

ローカルグローバルの注意モデルは最近、標準的な変圧器の説得力のある代替品として浮上しており、トレーニングと推論効率の両方の改善を約束しています。
ただし、ウィンドウサイズの重要な選択はパレートのトレードオフを示します。大きなウィンドウは、完全な注意と同様のパフォーマンスを維持しますが、短いコンテキストシナリオでは最小限の効率の向上を提供しますが、ウィンドウの小さなウィンドウはパフォーマンスの低下につながる可能性があります。
Gemma2やMistralなどの現在のモデルは、パフォーマンスを維持するために保守的なウィンドウサイズ(たとえば、8192の事前トレーニング長のうち4096)を採用しています。
この作業は、このパレートフロンティアをシフトする戦略を調査し、ローカルグローバルモデルが短いコンテキスト体制でさえ効率の向上を達成できるようにします。
私たちの核となる動機は、地元の注意の本質的な制限に対処することです。これは、定義されたウィンドウの外側のトークンに対する完全な無視です。
これらのウィンドウ外のトークンから情報をキャプチャするように設計された特殊な線形注意メカニズムと統合されたローカルな注意のバリアントであるRattentionを探ります。
3Bおよび12Bスケールでの事前除去実験は、格子がパフォーマンスと効率の間の優れたパレートトレードオフを達成することを示しています。
スイートスポットとして、わずか512のウィンドウサイズのラテンショニングは、多様な設定にわたるフルアテンションモデルのパフォーマンスと一貫して一致します。
さらに、ラッティングの線形注意成分に固有の再発性の性質は、ルーラーベンチマークで検証されているように、長いコンテキストのパフォーマンスの向上に貢献します。
重要なことに、これらの改善はトレーニング効率を損なうものではありません。
特殊なカーネルの実装とウィンドウサイズの削減により、ラテンションは既存の最先端のアプローチに匹敵するトレーニング速度を維持します。

要約(オリジナル)

Local-global attention models have recently emerged as compelling alternatives to standard Transformers, promising improvements in both training and inference efficiency. However, the crucial choice of window size presents a Pareto tradeoff: larger windows maintain performance akin to full attention but offer minimal efficiency gains in short-context scenarios, while smaller windows can lead to performance degradation. Current models, such as Gemma2 and Mistral, adopt conservative window sizes (e.g., 4096 out of an 8192 pretraining length) to preserve performance. This work investigates strategies to shift this Pareto frontier, enabling local-global models to achieve efficiency gains even in short-context regimes. Our core motivation is to address the intrinsic limitation of local attention — its complete disregard for tokens outside the defined window. We explore RATTENTION, a variant of local attention integrated with a specialized linear attention mechanism designed to capture information from these out-of-window tokens. Pretraining experiments at the 3B and 12B scales demonstrate that RATTENTION achieves a superior Pareto tradeoff between performance and efficiency. As a sweet spot, RATTENTION with a window size of just 512 consistently matches the performance of full-attention models across diverse settings. Furthermore, the recurrent nature inherent in the linear attention component of RATTENTION contributes to enhanced long-context performance, as validated on the RULER benchmark. Crucially, these improvements do not compromise training efficiency; thanks to a specialized kernel implementation and the reduced window size, RATTENTION maintains training speeds comparable to existing state-of-the-art approaches.

arxiv情報

著者 Bailin Wang,Chang Lan,Chong Wang,Ruoming Pang
発行日 2025-06-18 15:18:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RATTENTION: Towards the Minimal Sliding Window Size in Local-Global Attention Models はコメントを受け付けていません

Approximating Language Model Training Data from Weights

要約

現代の言語モデルは、しばしばオープンウェイトを持っていますが、トレーニングデータを閉じています。
モデルの重みからのデータ近似の問題を形式化し、いくつかのベースラインとメトリックを提案します。
大規模なパブリックテキストコーパスから最高の一致データを選択し、元のモデルと糸状モデルの重みのみを考慮して有用なデータを回復するという有効性を示すグラデーションベースのアプローチを開発します。
真のトレーニングデータのいずれも知られていない場合でも、私たちの方法では、パブリックWebドキュメントの小さなサブセットを見つけることができます。分類と監視施設の両方でトレーニングされたモデルを考慮して、元のモデルパフォーマンスに近づくためにモデルをトレーニングできます。
AGニュース分類タスクでは、この方法により、パフォーマンスが65%(ランダムに選択されたデータを使用)から80%に向上し、88%の専門家ベンチマークに近づきます。
MSMARCO WebドキュメントでSFTで訓練されたモデルに適用されると、この方法は、2.0の専門家モデルの困惑と比較して、困惑を3.3から2.3に減らします。

要約(オリジナル)

Modern language models often have open weights but closed training data. We formalize the problem of data approximation from model weights and propose several baselines and metrics. We develop a gradient-based approach that selects the highest-matching data from a large public text corpus and show its effectiveness at recovering useful data given only weights of the original and finetuned models. Even when none of the true training data is known, our method is able to locate a small subset of public Web documents can be used to train a model to close to the original model performance given models trained for both classification and supervised-finetuning. On the AG News classification task, our method improves performance from 65% (using randomly selected data) to 80%, approaching the expert benchmark of 88%. When applied to a model trained with SFT on MSMARCO web documents, our method reduces perplexity from 3.3 to 2.3, compared to an expert LLAMA model’s perplexity of 2.0.

arxiv情報

著者 John X. Morris,Junjie Oscar Yin,Woojeong Kim,Vitaly Shmatikov,Alexander M. Rush
発行日 2025-06-18 15:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Approximating Language Model Training Data from Weights はコメントを受け付けていません

How much do language models memorize?

要約

モデルがデータポイントについてどの程度知っているかを推定するための新しい方法を提案し、それを使用して最新の言語モデルの能力を測定します。
言語モデルの暗記に関する以前の研究は、一般化から暗記を解くのに苦労してきました。
正式に記憶を2つのコンポーネントに分けます。意図しない暗記、モデルに含まれる特定のデータセットに関する情報、および一般化、モデルには真のデータ生成プロセスに関する情報が含まれています。
一般化を完全に排除すると、モデル容量の推定値を提供する完全な暗記を計算できます。測定では、GPTスタイルモデルのパラメーターあたり約3.6ビットの容量があると推定します。
サイズの増加のデータセットで言語モデルをトレーニングし、モデルが容量が埋めるまで記憶することを観察します。この時点で「グローキング」が始まり、モデルが一般化し始めると意図しない暗記が減少します。
50万ドルから15億ドルのパラメーターから15億ドルのパラメーターまでの数百のトランス語モデルをトレーニングし、モデルの容量とデータサイズをメンバーシップ推論に関連付ける一連のスケーリング法則を作成します。

要約(オリジナル)

We propose a new method for estimating how much a model knows about a datapoint and use it to measure the capacity of modern language models. Prior studies of language model memorization have struggled to disentangle memorization from generalization. We formally separate memorization into two components: unintended memorization, the information a model contains about a specific dataset, and generalization, the information a model contains about the true data-generation process. When we completely eliminate generalization, we can compute the total memorization, which provides an estimate of model capacity: our measurements estimate that GPT-style models have a capacity of approximately 3.6 bits per parameter. We train language models on datasets of increasing size and observe that models memorize until their capacity fills, at which point ‘grokking’ begins, and unintended memorization decreases as models begin to generalize. We train hundreds of transformer language models ranging from $500K$ to $1.5B$ parameters and produce a series of scaling laws relating model capacity and data size to membership inference.

arxiv情報

著者 John X. Morris,Chawin Sitawarin,Chuan Guo,Narine Kokhlikyan,G. Edward Suh,Alexander M. Rush,Kamalika Chaudhuri,Saeed Mahloujifar
発行日 2025-06-18 15:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | How much do language models memorize? はコメントを受け付けていません

PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction

要約

大規模な言語モデル(LLMS)は、通常、テキストツーチック(TTS)システムと組み合わせてオーディオ応答を生成するリアルタイムの音声チャットアプリケーションで広く使用されています。
ただし、サイズが大きいと、ユーザー入力の終了とオーディオ出力の開始との間に顕著なレイテンシが発生し、ユーザーの体験が最適です。
この遅延は、LLMが限られたコンピューティング容量を備えた消費者グレードのハードウェアにシングルユーザー音声アシスタントとして展開されている場合に特に明白です。
この遅延は、LLMSが最初の文を生成するのにかかる時間によって主に支配されることを発見しました。これは、文ごとのオーディオ応答を合成するTTSシステムによる入力として必要です。
このボトルネックに対処するために、予測生成(Predgen)を提案します。これは、入力時に投機的なデコードを緩和する、またはこの遅延を排除する新しいフレームワークです。
Predgenは、ユーザーがまだ話している間に候補の応答を生成し、システムが最小限の遅延でTTS処理を開始できるようにします。
LMSYSおよびMTベンチデータセットでのシミュレートされた実験は、提案された方法が広範囲のユースケースでレイテンシを約2倍に効果的に減らすことができることを示していますが、そうでなければ未使用の入力時間コンピュータットで最小限の追加計算コストのみが発生します。

要約(オリジナル)

Large Language Models (LLMs) are widely used in real-time voice chat applications, typically in combination with text-to-speech (TTS) systems to generate audio responses. However, their large size often leads to noticeable latency between the end of user input and the start of audio output, resulting in suboptimal user experiences. This latency is particularly evident when LLMs are deployed as single-user voice assistants on consumer-grade hardware with limited computing capacity. We discovered that this latency is primarily dominated by the time it takes for the LLMs to generate the first sentence, which is required as input by the TTS systems that synthesize audio responses on a sentence-by-sentence basis. To address this bottleneck, we propose Predictive Generation (PredGen), a novel framework that mitigates-or even eliminates-this delay through speculative decoding at input time. PredGen generates candidate responses while the user is still speaking, enabling the system to begin TTS processing with minimal delay. Simulated experiments on the Lmsys and MT-Bench datasets show that the proposed method can effectively reduce the latency by around 2x across a wide range of use cases, while incurring only minimal additional computation cost at input time-computation that would otherwise go unused.

arxiv情報

著者 Shufan Li,Aditya Grover
発行日 2025-06-18 15:29:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | PredGen: Accelerated Inference of Large Language Models through Input-Time Speculation for Real-Time Speech Interaction はコメントを受け付けていません

Gender Inclusivity Fairness Index (GIFI): A Multilevel Framework for Evaluating Gender Diversity in Large Language Models

要約

大規模な言語モデル(LLMS)におけるジェンダー公平性の包括的な評価を提示し、バイナリと非バイナリの両方の性別を処理する能力に焦点を当てています。
以前の研究は主にバイナリの性別の区別に焦点を当てていますが、LLMの多様な性別包括性を定量化する斬新で包括的な指標である性別包括性公平性指数(GIFI)を紹介します。
GIFIは、提供された性別代名詞に対してモデルを単純に調査することから、異なる性別の仮定の下でモデル生成と認知行動のさまざまな側面をテストすることから、異なる性別識別子に関連するバイアスを明らかにすることから、さまざまなレベルでの幅広い評価で構成されています。
さまざまなサイズと能力の22の著名なオープンソースと独自のLLMでGIFIを使用して広範な評価を実施し、LLMSの性別包括性の有意なバリエーションを発見します。
私たちの研究は、LLMSの包括性を改善することの重要性を強調し、生成モデルにおけるジェンダー公平性の将来の進歩のための重要なベンチマークを提供します。

要約(オリジナル)

We present a comprehensive evaluation of gender fairness in large language models (LLMs), focusing on their ability to handle both binary and non-binary genders. While previous studies primarily focus on binary gender distinctions, we introduce the Gender Inclusivity Fairness Index (GIFI), a novel and comprehensive metric that quantifies the diverse gender inclusivity of LLMs. GIFI consists of a wide range of evaluations at different levels, from simply probing the model with respect to provided gender pronouns to testing various aspects of model generation and cognitive behaviors under different gender assumptions, revealing biases associated with varying gender identifiers. We conduct extensive evaluations with GIFI on 22 prominent open-source and proprietary LLMs of varying sizes and capabilities, discovering significant variations in LLMs’ gender inclusivity. Our study highlights the importance of improving LLMs’ inclusivity, providing a critical benchmark for future advancements in gender fairness in generative models.

arxiv情報

著者 Zhengyang Shan,Emily Ruth Diana,Jiawei Zhou
発行日 2025-06-18 15:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Gender Inclusivity Fairness Index (GIFI): A Multilevel Framework for Evaluating Gender Diversity in Large Language Models はコメントを受け付けていません

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

要約

Sciverを紹介します。Sciverは、マルチモーダルの科学的コンテキスト内でクレームを検証するための基礎モデルの能力を評価するために特別に設計された最初のベンチマークです。
SCIVERは、1,113の科学論文を超える3,000の専門家と発音の例で構成されており、それぞれがマルチモーダルの科学的主張の検証における共通の推論タイプを表しています。
微調整された評価を有効にするために、各例には、専門家が解決したサポート証拠が含まれています。
O4-MINI、GEMINI-2.5-FLASH、LLAMA-3.2-VISION、QWEN2.5-VLを含む21の最先端のマルチモーダルファンデーションモデルのパフォーマンスを評価します。
私たちの実験は、これらのモデルとSciverの人間の専門家との間に大きなパフォーマンスのギャップを明らかにしています。
検索された生成(RAG)の詳細な分析、および人間の伝導エラー評価を通じて、現在のオープンソースモデルの重大な制限を特定し、マルチモーダル科学文献タスクのモデルの理解と推論を進めるための重要な洞察を提供します。

要約(オリジナル)

We introduce SciVer, the first benchmark specifically designed to evaluate the ability of foundation models to verify claims within a multimodal scientific context. SciVer consists of 3,000 expert-annotated examples over 1,113 scientific papers, covering four subsets, each representing a common reasoning type in multimodal scientific claim verification. To enable fine-grained evaluation, each example includes expert-annotated supporting evidence. We assess the performance of 21 state-of-the-art multimodal foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and Qwen2.5-VL. Our experiment reveals a substantial performance gap between these models and human experts on SciVer. Through an in-depth analysis of retrieval-augmented generation (RAG), and human-conducted error evaluations, we identify critical limitations in current open-source models, offering key insights to advance models’ comprehension and reasoning in multimodal scientific literature tasks.

arxiv情報

著者 Chengye Wang,Yifei Shen,Zexi Kuang,Arman Cohan,Yilun Zhao
発行日 2025-06-18 15:43:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification はコメントを受け付けていません

DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement

要約

Vision-Language Models(VLMS)は、談話レベルのマルチセンテンスの視覚的説明を生成するようになりました。テキストシーングラフの挑戦は、最初はシングルセンテンスキャプションからグラフへのマッピング用に設計されています。
現在のアプローチは、通常、談話入力のために文レベルの解析出力をマージします。多くの場合、断続的なグラフと下流のVLMタスクのパフォーマンスを分解し、断片化したグラフのような現象が欠けています。
これに対処するために、画像用の400の専門家と合成されたマルチセンテンスキャプションペア400で構成されるデータセットDISCOSG-DSでサポートされている新しいタスク、談話レベルのテキストシーングラフ解析(DISCOSG)を紹介します。
各キャプションは平均9文で、各グラフには既存のデータセットのキャプションよりも少なくとも3倍のトリプルが含まれています。
Discosg-DSでの大きなPLMS(つまり、GPT-4)は、最高の文をマークするベースラインでスパイスを約48%改善し、高い推論コストと制限的なライセンスをオープンソースの使用を妨げ、より小さな微細なPLMSが複雑なグラフで闘っています。
1つの小さなPLMを使用してベースグラフをドラフトするDiscosg-Refinerを提案し、2番目のPLMを使用してグラフの編集を繰り返し提案し、フルグラフ生成のオーバーヘッドを削減します。
2つのFlan-T5ベースモデルを使用して、Discosg-Refinerは、GPT-4の86倍の推論を達成しながら、最高のベースラインよりも約30%スパイスを改善します。
また、談話レベルのキャプション評価や幻覚検出などの下流のVLMタスクを一貫して改善します。
コードとデータは、https://github.com/shaoqlin/discosgで入手できます

要約(オリジナル)

Vision-Language Models (VLMs) now generate discourse-level, multi-sentence visual descriptions, challenging text scene graph parsers originally designed for single-sentence caption-to-graph mapping. Current approaches typically merge sentence-level parsing outputs for discourse input, often missing phenomena like cross-sentence coreference, resulting in fragmented graphs and degraded downstream VLM task performance. To address this, we introduce a new task, Discourse-level text Scene Graph parsing (DiscoSG), supported by our dataset DiscoSG-DS, which comprises 400 expert-annotated and 8,430 synthesised multi-sentence caption-graph pairs for images. Each caption averages 9 sentences, and each graph contains at least 3 times more triples than those in existing datasets. While fine-tuning large PLMs (i.e., GPT-4) on DiscoSG-DS improves SPICE by approximately 48% over the best sentence-merging baseline, high inference cost and restrictive licensing hinder its open-source use, and smaller fine-tuned PLMs struggle with complex graphs. We propose DiscoSG-Refiner, which drafts a base graph using one small PLM, then employs a second PLM to iteratively propose graph edits, reducing full-graph generation overhead. Using two Flan-T5-Base models, DiscoSG-Refiner still improves SPICE by approximately 30% over the best baseline while achieving 86 times faster inference than GPT-4. It also consistently improves downstream VLM tasks like discourse-level caption evaluation and hallucination detection. Code and data are available at: https://github.com/ShaoqLin/DiscoSG

arxiv情報

著者 Shaoqing Lin,Chong Teng,Fei Li,Donghong Ji,Lizhen Qu,Zhuang Li
発行日 2025-06-18 16:00:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement はコメントを受け付けていません

Lean Workbook: A large-scale Lean problem set formalized from natural language math problems

要約

大規模な言語モデルは、特に数学的な問題を解決する際に、さまざまな自然言語処理タスクにわたって印象的な機能を実証しています。
ただし、大規模な言語モデルは、Leanのような正式な言語を使用して証明するMath Theoremでは良くありません。
この分野での重要な課題は、これらの正式な言語で利用可能なトレーニングデータが不足していることです。
この問題に対処するために、自然言語の数学的問題をリーン4ステートメントに変換するために合成データを繰り返し生成およびフィルタリングする新しいパイプラインを提案します。
私たちの結果は、合成データパイプラインが有用なトレーニングデータを提供し、複雑な数学的問題と証明を翻訳および理解する際のLLMのパフォーマンスを改善できることを示しています。
最終的なデータセットには、数学コンテストフォーラムからの検索された証明と21の新しいIMO質問とともに、約57kの正式な情報ペアが含まれています。
https://github.com/internlm/internlm-mathでコードをオープンソースし、https://huggingface.co/datasets/internlm/lean-workbookでデータをオープンソースします。

要約(オリジナル)

Large language models have demonstrated impressive capabilities across various natural language processing tasks, especially in solving mathematical problems. However, large language models are not good at math theorem proving using formal languages like Lean. A significant challenge in this area is the scarcity of training data available in these formal languages. To address this issue, we propose a novel pipeline that iteratively generates and filters synthetic data to translate natural language mathematical problems into Lean 4 statements, and vice versa. Our results indicate that the synthetic data pipeline can provide useful training data and improve the performance of LLMs in translating and understanding complex mathematical problems and proofs. Our final dataset contains about 57K formal-informal question pairs along with searched proof from the math contest forum and 21 new IMO questions. We open-source our code at https://github.com/InternLM/InternLM-Math and our data at https://huggingface.co/datasets/InternLM/Lean-Workbook.

arxiv情報

著者 Huaiyuan Ying,Zijian Wu,Yihan Geng,Zheng Yuan,Dahua Lin,Kai Chen
発行日 2025-06-18 16:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Lean Workbook: A large-scale Lean problem set formalized from natural language math problems はコメントを受け付けていません