LemmaHead: RAG Assisted Proof Generation Using Large Language Models

要約

数学的な問題を解決したり数学的証拠を書いたりするために必要なロジックを開発することは、大規模な言語モデル(LLM)にとってより困難な目的の1つです。
現在、文献で最も人気のある方法は、モデルが数学的執筆のスタイルをエミュレートすることを学ぶことができるように、アカデミック出版物や教科書などの書面による数学的コンテンツのモデルを微調整することで構成されています。
このプロジェクトでは、LLMSの数学的推論のギャップに対処するために検索拡張生成(RAG)を使用することの有効性を調査します。
公開された教科書のコンテキストに特に焦点を当てて、関連する数学的コンテキストでモデルに質問を補足するぼろきれの知識ベースであるLemmaheadを開発します。
数学的推論におけるモデルのパフォーマンスを測定するために、テストパラダイムは、無駄のない正式な言語での特定の数学的主張への証明を生成することで証明する自動定理のタスクに焦点を当てています。

要約(オリジナル)

Developing the logic necessary to solve mathematical problems or write mathematical proofs is one of the more difficult objectives for large language models (LLMS). Currently, the most popular methods in literature consists of fine-tuning the model on written mathematical content such as academic publications and textbooks, so that the model can learn to emulate the style of mathematical writing. In this project, we explore the effectiveness of using retrieval augmented generation (RAG) to address gaps in the mathematical reasoning of LLMs. We develop LemmaHead, a RAG knowledge base that supplements queries to the model with relevant mathematical context, with particular focus on context from published textbooks. To measure our model’s performance in mathematical reasoning, our testing paradigm focuses on the task of automated theorem proving via generating proofs to a given mathematical claim in the Lean formal language.

arxiv情報

著者 Tianbo Yang,Mingqi Yang,Hongyi Zhao,Tianshuo Yang
発行日 2025-02-07 18:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.LG | LemmaHead: RAG Assisted Proof Generation Using Large Language Models はコメントを受け付けていません

An Annotated Reading of ‘The Singer of Tales’ in the LLM Era

要約

Parry-Lordの口頭型理論は、口頭での物語の詩が文盲の吟遊詩人によってどのように学ばれ、構成され、伝染されるかを理解するための突破口でした。
この論文では、大規模な言語モデル(LLMS)と生成人工知能(AI)のレンズからこの理論の根底にあるメカニズムの注釈付き読み取り値を提供します。
口頭組成とLLMの生成の類似点と相違点を指摘し、社会とAIの政策への影響についてコメントします。

要約(オリジナル)

The Parry-Lord oral-formulaic theory was a breakthrough in understanding how oral narrative poetry is learned, composed, and transmitted by illiterate bards. In this paper, we provide an annotated reading of the mechanism underlying this theory from the lens of large language models (LLMs) and generative artificial intelligence (AI). We point out the the similarities and differences between oral composition and LLM generation, and comment on the implications to society and AI policy.

arxiv情報

著者 Kush R. Varshney
発行日 2025-02-07 18:26:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | An Annotated Reading of ‘The Singer of Tales’ in the LLM Era はコメントを受け付けていません

CodeSCM: Causal Analysis for Multi-Modal Code Generation

要約

この論文では、大規模な言語モデル(LLMS)を使用してマルチモーダルコード生成を分析するための構造因果モデル(SCM)であるCodesCMを提案します。
介入をCODESCMに適用することにより、モデルに対する自然言語、コード、入出力の例など、さまざまな迅速なモダリティの因果効果を測定します。
CODESCMは、潜在的なメディエーター変数を導入して、マルチモーダルコード生成プロンプトのコードと自然言語セマンティクスを分離します。
これらのメディエーターで因果調停分析の原理を使用して、モデルの偽の傾向を表す直接的な効果を定量化します。
自然言語の指示に加えて、入出力の例はコード生成に大きく影響することがわかります。

要約(オリジナル)

In this paper, we propose CodeSCM, a Structural Causal Model (SCM) for analyzing multi-modal code generation using large language models (LLMs). By applying interventions to CodeSCM, we measure the causal effects of different prompt modalities, such as natural language, code, and input-output examples, on the model. CodeSCM introduces latent mediator variables to separate the code and natural language semantics of a multi-modal code generation prompt. Using the principles of Causal Mediation Analysis on these mediators we quantify direct effects representing the model’s spurious leanings. We find that, in addition to natural language instructions, input-output examples significantly influence code generation.

arxiv情報

著者 Mukur Gupta,Noopur Bhatt,Suman Jana
発行日 2025-02-07 18:26:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CodeSCM: Causal Analysis for Multi-Modal Code Generation はコメントを受け付けていません

A Lightweight Method to Disrupt Memorized Sequences in LLM

要約

大規模な言語モデル(LLMS)は、多くのタスクにわたって印象的な能力を示していますが、著作権で保護されたコンテンツの逐語的に再現し、法的および倫理的な懸念を引き起こすリスクがあります。
プライバシーの差やニューロンの編集などの方法は暗記を減らすことができますが、通常、コストのかかる再訓練またはモデルの重量への直接アクセスが必要であり、パフォーマンスを低下させる可能性があります。
これらの課題に対処するために、文法関連のトークンの確率を小さな補助モデル(例:distilgpt-2)から置き換える軽量の事後アプローチであるTokenswapを提案します。
Pythia-6.9BやLlama-3-8Bなどの商用グレードモデルで広範な実験を実施し、下流のタスクにほとんど影響を与えずに、覚えた世代のよく知られた世代の症例を最大10倍効果的に減らすことを実証しています。
私たちのアプローチは、実際のシステムのユーザーにユニークにアクセスしやすく効果的なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) demonstrate impressive capabilities across many tasks yet risk reproducing copyrighted content verbatim, raising legal and ethical concerns. Although methods like differential privacy or neuron editing can reduce memorization, they typically require costly retraining or direct access to model weights and may degrade performance. To address these challenges, we propose TokenSwap, a lightweight, post-hoc approach that replaces the probabilities of grammar-related tokens with those from a small auxiliary model (e.g., DistilGPT-2). We run extensive experiments on commercial grade models such as Pythia-6.9b and LLaMA-3-8b and demonstrate that our method effectively reduces well-known cases of memorized generation by upto 10x with little to no impact on downstream tasks. Our approach offers a uniquely accessible and effective solution to users of real-world systems.

arxiv情報

著者 Parjanya Prajakta Prashant,Kaustubh Ponkshe,Babak Salimi
発行日 2025-02-07 18:41:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | A Lightweight Method to Disrupt Memorized Sequences in LLM はコメントを受け付けていません

DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails

要約

大規模な言語モデル(LLMS)の急速な進歩により、特に安全でない違法な内容を検出する際に、責任ある使用を確実にするためのガードレールモデルの必要性が高まりました。
英語には実質的な安全データが存在しますが、多言語のガードレールモデリングは、他の言語でのオープンソースの安全データが不足しているため、既知のままです。
このギャップに対処するために、新しい2プレイヤー強化学習(RL)フレームワークを提案します。そこでは、発電機とガードレールモデルが敵対的に共進化し、多言語ガードレールトレーニングのための高品質の合成データを作成します。
この相互作用を2人のプレーヤーゲームとして理論的に形式化し、ナッシュ平衡への収束を証明します。
経験的評価は、私たちのモデルが最先端のモデルよりも優れていることを示しており、英語のベンチマークでLlamaguard3(8b)よりも10%近くの改善を達成しながら、かなり小さいモデル(0.5b)を使用して4.5倍高速であることが示されています。
特に収集された実際のデータセットでの低リソース言語の不均衡に対処する際に、多言語の安全タスクの大幅な進歩を達成します。
アブレーション研究は、英語と他の言語間のオープンソースデータの不均衡を埋める上での合成データ生成の重要な役割を強調しています。
これらの調査結果は、合成データ生成に対するスケーラブルで効率的なアプローチを確立し、LLMの安全性を高めるために多言語ガードレールモデルを改善する方法を開催します。
コード、モデル、およびデータは、https://github.com/yihedeng9/duogu​​ardでオープンソーリングされます。

要約(オリジナル)

The rapid advancement of large language models (LLMs) has increased the need for guardrail models to ensure responsible use, particularly in detecting unsafe and illegal content. While substantial safety data exist in English, multilingual guardrail modeling remains underexplored due to the scarcity of open-source safety data in other languages. To address this gap, we propose a novel two-player Reinforcement Learning (RL) framework, where a generator and a guardrail model co-evolve adversarially to produce high-quality synthetic data for multilingual guardrail training. We theoretically formalize this interaction as a two-player game, proving convergence to a Nash equilibrium. Empirical evaluations show that our model \ours outperforms state-of-the-art models, achieving nearly 10% improvement over LlamaGuard3 (8B) on English benchmarks while being 4.5x faster at inference with a significantly smaller model (0.5B). We achieve substantial advancements in multilingual safety tasks, particularly in addressing the imbalance for lower-resource languages in a collected real dataset. Ablation studies emphasize the critical role of synthetic data generation in bridging the imbalance in open-source data between English and other languages. These findings establish a scalable and efficient approach to synthetic data generation, paving the way for improved multilingual guardrail models to enhance LLM safety. Code, model, and data will be open-sourced at https://github.com/yihedeng9/DuoGuard.

arxiv情報

著者 Yihe Deng,Yu Yang,Junkai Zhang,Wei Wang,Bo Li
発行日 2025-02-07 18:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails はコメントを受け付けていません

NoLiMa: Long-Context Evaluation Beyond Literal Matching

要約

最近の大規模な言語モデル(LLMS)は、128K〜1Mトークンの範囲の長いコンテキストをサポートしています。
これらの機能を評価するための一般的な方法は、ヘイスタックの針(NIAH)テストです。これには、「ヘイスタック」(長い無関係なコンテキスト)から「針」(関連情報)を取得することが含まれます。
このアプローチの拡張には、ディストラクタの増加、ファクトチェーン、およびコンテキスト内の推論が含まれます。
ただし、これらのベンチマークでは、モデルはタスクを簡素化するために針と干し草のスタックの間の既存のリテラルマッチを活用できます。
これに対処するために、慎重に設計された針セットでニアを拡張するベンチマークであるノリマを紹介します。ここでは、質問と針が最小限の語彙オーバーラップを備えており、ヘイスタック内の針を見つけるための潜在的な関連性を推測するモデルが必要です。
少なくとも128Kトークンのコンテキストをサポートすると主張する12の一般的なLLMを評価します。
短いコンテキスト(<1K)ではうまく機能しますが、コンテキストの長さが増加するにつれてパフォーマンスは大幅に低下します。 たとえば、32Kでは、10モデルが強力な短い長さのベースラインの50%を下回ります。 トップパフォーマンスの例外の1つであるGPT-4Oでさえ、99.3%から69.7%のほぼ完璧なベースラインから減少を経験します。 私たちの分析は、これらの衰退が、文字通りの一致がないときに長いコンテキストで注意メカニズムが直面する難易度の増加から生じ、関連する情報を取得することを難しくすることを示唆しています。

要約(オリジナル)

Recent large language models (LLMs) support long contexts ranging from 128K to 1M tokens. A popular method for evaluating these capabilities is the needle-in-a-haystack (NIAH) test, which involves retrieving a ‘needle’ (relevant information) from a ‘haystack’ (long irrelevant context). Extensions of this approach include increasing distractors, fact chaining, and in-context reasoning. However, in these benchmarks, models can exploit existing literal matches between the needle and haystack to simplify the task. To address this, we introduce NoLiMa, a benchmark extending NIAH with a carefully designed needle set, where questions and needles have minimal lexical overlap, requiring models to infer latent associations to locate the needle within the haystack. We evaluate 12 popular LLMs that claim to support contexts of at least 128K tokens. While they perform well in short contexts (<1K), performance degrades significantly as context length increases. At 32K, for instance, 10 models drop below 50% of their strong short-length baselines. Even GPT-4o, one of the top-performing exceptions, experiences a reduction from an almost-perfect baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the increased difficulty the attention mechanism faces in longer contexts when literal matches are absent, making it harder to retrieve relevant information.

arxiv情報

著者 Ali Modarressi,Hanieh Deilamsalehy,Franck Dernoncourt,Trung Bui,Ryan A. Rossi,Seunghyun Yoon,Hinrich Schütze
発行日 2025-02-07 18:49:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NoLiMa: Long-Context Evaluation Beyond Literal Matching はコメントを受け付けていません

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

要約

潜在空間で暗黙的に推論することにより、テスト時間計算をスケーリングできる新しい言語モデルアーキテクチャを研究します。
私たちのモデルは、再発ブロックを反復することで機能し、それによりテスト時に任意の深さに照会します。
これは、より多くのトークンを生成することで計算される主流の推論モデルとは対照的です。
考え方に基づいたアプローチとは異なり、私たちのアプローチでは、特別なトレーニングデータを必要とせず、小さなコンテキストウィンドウで動作し、言葉で簡単に表現できないタイプの推論をキャプチャできます。
概念実証モデルを35億パラメーターと8,000億トークンにスケーリングします。
結果のモデルは、500億パラメーターに相当する計算負荷まで、時には劇的にベンチマークのパフォーマンスを向上させることができることを示しています。

要約(オリジナル)

We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters.

arxiv情報

著者 Jonas Geiping,Sean McLeish,Neel Jain,John Kirchenbauer,Siddharth Singh,Brian R. Bartoldson,Bhavya Kailkhura,Abhinav Bhatele,Tom Goldstein
発行日 2025-02-07 18:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach はコメントを受け付けていません

Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques

要約

変圧器は、自然言語処理やバイオインフォマティクスなど、多くのドメインで大きな成功を収めています。
この成功は、個々のトークンのシーケンシャルデータ間のペアワイズ相互作用を表現および伝播するために、これらのモデルによる注意メカニズムの使用に起因します。
ただし、この操作の主な制限は、入力のコンテキストの長さ、つまり相互作用をキャプチャする必要があるシーケンスの長さに関連する2次メモリと時間の複雑さです。
これにより、これらのモデルで推測できるシーケンスの長さが大幅に制限されます。
まばらな注意マスクの開発を通じて注意メカニズムにスパース性を導入することにより、コンテキストの長さに関連して、ペアワイズ相互作用の数をコンテキストの長さに関連して亜科にするために、広範な研究が行われています。
ただし、「真のスパース」を達成する効率的な実装には不足しています。
この作業では、トークンがグラフのノードとして知覚され、注意マスクがグラフのエッジを決定する場合、注意のグラフコンピューティングビューを提案することにより、この問題に対処します。
このビューを使用して、グラフ処理アルゴリズムを開発して、注意メカニズムを実装します。
理論的および経験的には、アルゴリズムが必要な計算のみを実行すること、つまりそれらが最適な作業であることを実証します。
また、人気のある注意マスクを使用して広範な実験を行い、実行時間と達成可能なコンテキストの長さに対するスパースの影響を調査します。
私たちの実験は、大きなシーケンスの長さのFlashattentionなどの最先端の注意実装と比較して、実行時間の大幅なスピードアップを示しています。
また、単一のNVIDIA A100 GPU(SXM4 80GB)で、アルゴリズムが非常に長いシーケンスの長さを1億6,000万を達成できることも実証しています。

要約(オリジナル)

Transformers have demonstrated great success in numerous domains including natural language processing and bioinformatics. This success stems from the use of the attention mechanism by these models in order to represent and propagate pairwise interactions between individual tokens of sequential data. However, the primary limitation of this operation is its quadratic memory and time complexity in relation to the input’s context length – the length of a sequence over which the interactions need to be captured. This significantly limits the length of sequences that can be inferred upon by these models. Extensive research has been conducted to reduce the number of pairwise interactions to sub-quadratic in relation to the context length by introducing sparsity into the attention mechanism through the development of sparse attention masks. However, efficient implementations that achieve ‘true sparsity’ are lacking. In this work, we address this issue by proposing a graph computing view of attention where tokens are perceived as nodes of the graph and the attention mask determines the edges of the graph. Using this view, we develop graph processing algorithms to implement the attention mechanism. Both theoretically and empirically, we demonstrate that our algorithms only perform the needed computations, i.e., they are work optimal. We also perform extensive experimentation using popular attention masks to explore the impact of sparsity on execution time and achievable context length. Our experiments demonstrate significant speedups in execution times compared to state-of-the-art attention implementations such as FlashAttention for large sequence lengths. We also demonstrate that our algorithms are able to achieve extremely long sequence lengths of as high as 160 million on a single NVIDIA A100 GPU (SXM4 80GB).

arxiv情報

著者 Nathaniel Tomczak,Sanmukh Kuppannagari
発行日 2025-02-07 13:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, cs.PF | Longer Attention Span: Increasing Transformer Context Length with Sparse Graph Processing Techniques はコメントを受け付けていません

Harnessing Scale and Physics: A Multi-Graph Neural Operator Framework for PDEs on Arbitrary Geometries

要約

部分微分方程式(PDE)は多くの科学的現象を支えていますが、従来の計算アプローチは、しばしば複雑で非線形システムと不規則な幾何学と格闘しています。
このペーパーでは、AMGメソッドを紹介します。これは、任意の形状でPDEを効率的に解くように設計されたマルチグラフ神経演算子アプローチです。
AMGは、新しいグラフフォーマーアーキテクチャ内の高度なグラフベースの手法と動的注意メカニズムを活用し、多様な空間ドメインと複雑なデータ相互依存性の正確な管理を可能にします。
可変特徴周波数と物理グラフを処理するためのマルチスケールグラフを構築することにより、固有の物理的特性をカプセル化する物理グラフを処理することにより、AMGは通常、均一なグリッドに限定される以前の方法を大幅に上回ります。
6つのベンチマークにわたるAMGの包括的な評価を提示し、既存の最先端モデルに対する一貫した優位性を示しています。
私たちの調査結果は、従来のPDEソルバーが直面する課題を乗り越える際に、テーラードグラフニューラル演算子の変革の可能性を強調しています。
コードとデータセットは、https://github.com/lizhihao2022/amgで入手できます。

要約(オリジナル)

Partial Differential Equations (PDEs) underpin many scientific phenomena, yet traditional computational approaches often struggle with complex, nonlinear systems and irregular geometries. This paper introduces the AMG method, a Multi-Graph neural operator approach designed for efficiently solving PDEs on Arbitrary geometries. AMG leverages advanced graph-based techniques and dynamic attention mechanisms within a novel GraphFormer architecture, enabling precise management of diverse spatial domains and complex data interdependencies. By constructing multi-scale graphs to handle variable feature frequencies and a physics graph to encapsulate inherent physical properties, AMG significantly outperforms previous methods, which are typically limited to uniform grids. We present a comprehensive evaluation of AMG across six benchmarks, demonstrating its consistent superiority over existing state-of-the-art models. Our findings highlight the transformative potential of tailored graph neural operators in surmounting the challenges faced by conventional PDE solvers. Our code and datasets are available on https://github.com/lizhihao2022/AMG.

arxiv情報

著者 Zhihao Li,Haoze Song,Di Xiao,Zhilu Lai,Wei Wang
発行日 2025-02-07 13:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Harnessing Scale and Physics: A Multi-Graph Neural Operator Framework for PDEs on Arbitrary Geometries はコメントを受け付けていません

Proactive Model Adaptation Against Concept Drift for Online Time Series Forecasting

要約

時系列予測は常に、データ分布が時間とともに進化し、予測モデルのパフォーマンスの低下につながる概念ドリフトの課題に直面しています。
既存のソリューションは、最近のトレーニングサンプルとして最近の時系列観測を継続的に整理し、最近のデータに関する予測フィードバックに従ってモデルパラメーターを更新するオンライン学習に基づいています。
ただし、重要な問題を見落としています。各サンプルの根本的な将来の値を取得することは、予測期間の後まで遅延する必要があります。
この遅延は、トレーニングサンプルとテストサンプルの間に時間的なギャップを作成します。
私たちの経験的分析は、ギャップが概念ドリフトを導入し、予測モデルが時代遅れの概念に適応することができることを明らかにしています。
このペーパーでは、オンライン時系列予測のための新しい予防的なモデル適応フレームワークを続行します。
最初に、最近使用されたトレーニングサンプルと現在のテストサンプルの間の概念ドリフトを推定します。
次に、適応ジェネレーターを使用して、推定ドリフトをパラメーター調整に効率的に変換し、モデルをテストサンプルに積極的に適応させます。
フレームワークの一般化能力を強化するために、合成される多様な概念ドリフトで続行されます。
さまざまな予測モデルにわたる5つの実際のデータセットに関する広範な実験は、進行が最先端のオンライン学習方法よりもパフォーマンスの改善をもたらし、概念ドリフトに対する予測モデルの回復力を大幅に促進することを示しています。
コードはhttps://github.com/sjtu-dmtai/onlinetsfで入手できます。

要約(オリジナル)

Time series forecasting always faces the challenge of concept drift, where data distributions evolve over time, leading to a decline in forecast model performance. Existing solutions are based on online learning, which continually organize recent time series observations as new training samples and update model parameters according to the forecasting feedback on recent data. However, they overlook a critical issue: obtaining ground-truth future values of each sample should be delayed until after the forecast horizon. This delay creates a temporal gap between the training samples and the test sample. Our empirical analysis reveals that the gap can introduce concept drift, causing forecast models to adapt to outdated concepts. In this paper, we present Proceed, a novel proactive model adaptation framework for online time series forecasting. Proceed first estimates the concept drift between the recently used training samples and the current test sample. It then employs an adaptation generator to efficiently translate the estimated drift into parameter adjustments, proactively adapting the model to the test sample. To enhance the generalization capability of the framework, Proceed is trained on synthetic diverse concept drifts. Extensive experiments on five real-world datasets across various forecast models demonstrate that Proceed brings more performance improvements than the state-of-the-art online learning methods, significantly facilitating forecast models’ resilience against concept drifts. Code is available at https://github.com/SJTU-DMTai/OnlineTSF.

arxiv情報

著者 Lifan Zhao,Yanyan Shen
発行日 2025-02-07 13:54:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.LG, stat.ML | Proactive Model Adaptation Against Concept Drift for Online Time Series Forecasting はコメントを受け付けていません