Multi-Domain Explainability of Preferences

要約

人間の好み、LLM-as-a-a-judge(laaj)、報酬モデルなどの選好メカニズムは、大規模な言語モデル(LLM)を調整および評価するための中心です。
しかし、これらの好みを促進する根本的な概念は、よく理解されていません。
この作業では、複数のドメインにわたって好みのローカルおよびグローバルな概念ベースの説明を生成するための完全に自動化された方法を提案します。
私たちの方法は、LLMを利用して、選択された応答と拒否された応答を区別する概念を特定し、概念ベースのベクターでそれらを表現します。
概念と好みの関係をモデル化するために、ドメイン総長とドメイン固有の効果の両方をキャプチャするホワイトボックスの階層マルチドメイン回帰モデルを提案します。
私たちの方法を評価するために、8つの挑戦的で多様なドメインにまたがるデータセットをキュレートし、12のメカニズムを説明します。
私たちの方法は、強い優先予測のパフォーマンスを実現し、ベースラインを上回りながら説明可能です。
さらに、2つのアプリケーション駆動型設定で説明を評価します。
第一に、LAAJの説明からの概念を使用してLLM出力をガイドすることは、それらの裁判官が一貫して好む応答をもたらします。
第二に、人間を説明する概念でラージを促すことで、好みの予測が向上します。
一緒に、私たちの仕事は、LLMSの時代における説明可能性のための新しいパラダイムを確立します。

要約(オリジナル)

Preference mechanisms, such as human preference, LLM-as-a-Judge (LaaJ), and reward models, are central to aligning and evaluating large language models (LLMs). Yet, the underlying concepts that drive these preferences remain poorly understood. In this work, we propose a fully automated method for generating local and global concept-based explanations of preferences across multiple domains. Our method utilizes an LLM to identify concepts that distinguish between chosen and rejected responses, and to represent them with concept-based vectors. To model the relationships between concepts and preferences, we propose a white-box Hierarchical Multi-Domain Regression model that captures both domain-general and domain-specific effects. To evaluate our method, we curate a dataset spanning eight challenging and diverse domains and explain twelve mechanisms. Our method achieves strong preference prediction performance, outperforming baselines while also being explainable. Additionally, we assess explanations in two application-driven settings. First, guiding LLM outputs with concepts from LaaJ explanations yields responses that those judges consistently prefer. Second, prompting LaaJs with concepts explaining humans improves their preference predictions. Together, our work establishes a new paradigm for explainability in the era of LLMs.

arxiv情報

著者 Nitay Calderon,Liat Ein-Dor,Roi Reichart
発行日 2025-05-29 15:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multi-Domain Explainability of Preferences はコメントを受け付けていません

On-Policy RL with Optimal Reward Baseline

要約

強化学習アルゴリズムは、大規模な言語モデルを人間の好みに合わせて、推論能力を高めるための基本です。
ただし、現在の強化学習アルゴリズムは、ポリシー上の制約の緩みと補助モデルによる計算の非効率性により、トレーニングの不安定性に苦しむことがよくあります。
この作業では、これらの課題に対処するために設計された斬新で単純化された強化学習アルゴリズムである最適な報酬ベースライン(OPO)を使用して、オンポリティRLを提案します。
OPOは、トレーニングプロセスを経験的に安定させ、探索を強化する正確なオンポリシートレーニングの重要性を強調しています。
さらに、OPOは、理論的に勾配分散を最小限に抑える最適な報酬ベースラインを導入します。
数学的推論ベンチマークでOPOを評価します。
結果は、追加のモデルや正規化条件なしで、その優れたパフォーマンスとトレーニングの安定性を示しています。
さらに、OPOはより低いポリシーシフトとより高い出力エントロピーを達成し、より多様で繰り返しの少ない応答を促進します。
これらの結果は、大規模な言語モデルのアライメントと推論タスクにおける安定した効果的な強化学習の有望な方向としてOPOを強調しています。
実装はhttps://github.com/microsoft/lmops/tree/main/opoで提供されます。

要約(オリジナル)

Reinforcement learning algorithms are fundamental to align large language models with human preferences and to enhance their reasoning capabilities. However, current reinforcement learning algorithms often suffer from training instability due to loose on-policy constraints and computational inefficiency due to auxiliary models. In this work, we propose On-Policy RL with Optimal reward baseline (OPO), a novel and simplified reinforcement learning algorithm designed to address these challenges. OPO emphasizes the importance of exact on-policy training, which empirically stabilizes the training process and enhances exploration. Moreover, OPO introduces the optimal reward baseline that theoretically minimizes gradient variance. We evaluate OPO on mathematical reasoning benchmarks. The results demonstrate its superior performance and training stability without additional models or regularization terms. Furthermore, OPO achieves lower policy shifts and higher output entropy, encouraging more diverse and less repetitive responses. These results highlight OPO as a promising direction for stable and effective reinforcement learning in large language model alignment and reasoning tasks. The implementation is provided at https://github.com/microsoft/LMOps/tree/main/opo.

arxiv情報

著者 Yaru Hao,Li Dong,Xun Wu,Shaohan Huang,Zewen Chi,Furu Wei
発行日 2025-05-29 15:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | On-Policy RL with Optimal Reward Baseline はコメントを受け付けていません

Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles

要約

ルールベースの強化学習(RL)をマルチモーダル大手言語モデル(MLLMS)に適用すると、特に知覚が多いタスクのために、テキストのみのドメインでの調査結果からのユニークな課題と潜在的な逸脱を導入します。
このペーパーでは、ジグソーパズルを構造化された実験フレームワークとして使用したルールベースの視覚RLの包括的な研究を提供し、いくつかの重要な調査結果を明らかにします。
\ textIT {最初に、} MLLMは、最初は単純なパズルでランダムな推測に近いパフォーマンスを発揮し、ほぼ完璧な精度を達成し、微調整を通じて複雑で目に見えない構成に一般化することがわかります。
\ textIT {第二に、}ジグソーパズルのトレーニングは、特定のタスク構成に関連する有効性を備えた他の視覚タスクに一般化を誘発する可能性があります。
\ textIT {第三に、} mllmsは明示的な推論の有無にかかわらず学習し、一般化することができますが、オープンソースモデルはしばしば直接応答を好みます。
その結果、ステップバイステップの推論のために訓練された場合でも、最終的な答えを導き出す際の思考プロセスを無視できます。
\ textIT {第四に、}複雑な推論パターンは、トレーニングとタスクの難易度とともに頻度が増加しているため、出現するのではなく既存のように見えることがわかります。
\ textIT {最後に、}私たちの結果は、RLが監視された微調整(SFT)よりも効果的な一般化を示すことを示しており、初期SFTコールドスタートフェーズはその後のRL最適化を妨げる可能性があります。
これらの観察結果はジグソーパズルのパズルに基づいており、他の視覚タスクで異なる場合がありますが、この研究は、集合的理解ルールベースの視覚RLとマルチモーダル学習におけるその可能性の大規模なパズルに貴重なジグソーパを提供します。
コードは、\ href {https://github.com/zifuwanggg/jigsaw-r1} {https://github.com/zifuwanggg/jigsaw-r1}で利用できます。

要約(オリジナル)

The application of rule-based reinforcement learning (RL) to multimodal large language models (MLLMs) introduces unique challenges and potential deviations from findings in text-only domains, particularly for perception-heavy tasks. This paper provides a comprehensive study of rule-based visual RL using jigsaw puzzles as a structured experimental framework, revealing several key findings. \textit{Firstly,} we find that MLLMs, initially performing near to random guessing on simple puzzles, achieve near-perfect accuracy and generalize to complex, unseen configurations through fine-tuning. \textit{Secondly,} training on jigsaw puzzles can induce generalization to other visual tasks, with effectiveness tied to specific task configurations. \textit{Thirdly,} MLLMs can learn and generalize with or without explicit reasoning, though open-source models often favor direct answering. Consequently, even when trained for step-by-step reasoning, they can ignore the thinking process in deriving the final answer. \textit{Fourthly,} we observe that complex reasoning patterns appear to be pre-existing rather than emergent, with their frequency increasing alongside training and task difficulty. \textit{Finally,} our results demonstrate that RL exhibits more effective generalization than Supervised Fine-Tuning (SFT), and an initial SFT cold start phase can hinder subsequent RL optimization. Although these observations are based on jigsaw puzzles and may vary across other visual tasks, this research contributes a valuable piece of jigsaw to the larger puzzle of collective understanding rule-based visual RL and its potential in multimodal learning. The code is available at: \href{https://github.com/zifuwanggg/Jigsaw-R1}{https://github.com/zifuwanggg/Jigsaw-R1}.

arxiv情報

著者 Zifu Wang,Junyi Zhu,Bo Tang,Zhiyu Li,Feiyu Xiong,Jiaqian Yu,Matthew B. Blaschko
発行日 2025-05-29 16:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles はコメントを受け付けていません

X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents

要約

チューリングテストでは、AISが自然言語の会話で人間のような行動を示すかどうかを調べます。
従来の設定では、各参加者を一度に1つのメッセージに制限し、常に人間の参加が必要です。
これは、自然な会話スタイルを反映することができず、複雑で長期にわたる相互作用における大規模な言語モデル(LLM)に基づいて対話エージェントの評価を妨げます。
このペーパーでは、\ textBf {\ textSc {x-turing}}を提案します。これにより、\ textit {バーストダイアログ}パターンで元のテストが強化され、連続したメッセージを使用してより動的な交換が可能になります。
さらに、エージェントと人間の間の長期的な相互作用をシミュレートするためにテストプロセスの大部分を構成する反復的に生成する対話により、人間のワークロードをさらに削減します。
\ textit {pseudo-dialogue}の歴史により、エージェントは本物の人間との短い対話に従事します。これは、アンケートを使用して審査される同じトピックに関する人間の人間の会話と組み合わされます。
\ textit {x-turnパスレート}メトリックを導入して、さまざまな期間にわたるLLMの人間の肖像を評価します。
GPT-4のようなLLMは最初はうまく機能しますが、それぞれ3ターンと10ターンのダイアログで51.9%と38.9%の合格率を達成しますが、対話が進むにつれてパフォーマンスが低下し、長期的に一貫性を維持することが強くなります。

要約(オリジナル)

The Turing test examines whether AIs exhibit human-like behaviour in natural language conversations. The traditional setting limits each participant to one message at a time and requires constant human participation. This fails to reflect a natural conversational style and hinders the evaluation of dialogue agents based on Large Language Models (LLMs) in complex and prolonged interactions. This paper proposes \textbf{\textsc{X-Turing}}, which enhances the original test with a \textit{burst dialogue} pattern, allowing more dynamic exchanges using consecutive messages. It further reduces human workload by iteratively generating dialogues that simulate the long-term interaction between the agent and a human to compose the majority of the test process. With the \textit{pseudo-dialogue} history, the agent then engages in a shorter dialogue with a real human, which is paired with a human-human conversation on the same topic to be judged using questionnaires. We introduce the \textit{X-Turn Pass-Rate} metric to assess the human likeness of LLMs across varying durations. While LLMs like GPT-4 initially perform well, achieving pass rates of 51.9\% and 38.9\% during 3 turns and 10 turns of dialogues respectively, their performance drops as the dialogue progresses, which underscores the difficulty in maintaining consistency in the long term.

arxiv情報

著者 Weiqi Wu,Hongqiu Wu,Hai Zhao
発行日 2025-05-29 16:08:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | X-TURING: Towards an Enhanced and Efficient Turing Test for Long-Term Dialogue Agents はコメントを受け付けていません

STeCa: Step-level Trajectory Calibration for LLM Agent Learning

要約

大規模な言語モデル(LLM)ベースのエージェントは、環境と動的に対話することにより、複雑なタスクに取り組むことに有望を示しています。
既存の作業は、主に、探索的軌跡サンプリングを通じて、専門家のデモンストレーションまたは好みの学習からの動作のクローニングに焦点を当てています。
ただし、これらの方法はしばしば、長期のタスクに対処するのに苦労しています。このタスクでは、最適ではないアクションが段階的に蓄積し、エージェントが正しいタスクの軌跡から逸脱します。
これに対処するために、タイムリーなキャリブレーションの重要性と、トレーニングエージェントのキャリブレーション軌道を自動的に構築する必要性を強調します。
LLMエージェントラーニングの新しいフレームワークであるステップレベルの軌道キャリブレーション(STECA)を提案します。
具体的には、STECAは、探索中のステップレベルの報酬比較を通じて、最適ではないアクションを特定します。
LLM駆動型反射を使用して較正された軌道を構築し、エージェントが改善された意思決定プロセスから学習できるようにします。
最終的に、強化されたトレーニングのために成功した軌跡でこれらの較正された軌跡を活用します。
広範な実験は、STECAが既存の方法を大幅に上回ることを示しています。
さらなる分析により、タイムリーなキャリブレーションにより、エージェントは堅牢性を高めてタスクを完了することができることを強調しています。
コードとデータは、https://github.com/wanghanlinhenry/stecaで入手できます。

要約(オリジナル)

Large language model (LLM)-based agents have shown promise in tackling complex tasks by interacting dynamically with the environment. Existing work primarily focuses on behavior cloning from expert demonstrations or preference learning through exploratory trajectory sampling. However, these methods often struggle to address long-horizon tasks, where suboptimal actions accumulate step by step, causing agents to deviate from correct task trajectories. To address this, we highlight the importance of timely calibration and the need to automatically construct calibration trajectories for training agents. We propose Step-Level Trajectory Calibration (STeCa), a novel framework for LLM agent learning. Specifically, STeCa identifies suboptimal actions through a step-level reward comparison during exploration. It constructs calibrated trajectories using LLM-driven reflection, enabling agents to learn from improved decision-making processes. We finally leverage these calibrated trajectories with successful trajectories for reinforced training. Extensive experiments demonstrate that STeCa significantly outperforms existing methods. Further analysis highlights that timely calibration enables agents to complete tasks with greater robustness. Our code and data are available at https://github.com/WangHanLinHenry/STeCa.

arxiv情報

著者 Hanlin Wang,Jian Wang,Chak Tou Leong,Wenjie Li
発行日 2025-05-29 16:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | STeCa: Step-level Trajectory Calibration for LLM Agent Learning はコメントを受け付けていません

Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

要約

言語モデル(LMS)は、標準化されたコーディングベンチマークでうまく機能しますが、特にモデルパラメーターが100B未満の場合、SWEベンチでGitHubの問題を解決するなどの実際のソフトウェアエンジニアリングタスクに苦労しています。
計算コストが低いため、より小さなモデルは実際には望ましいものですが、パフォーマンスの改善は依然として困難です。
既存のアプローチは、主に高品質のデータを使用して監視された微調整(SFT)に依存していますが、これは大規模なキュレートに費用がかかります。
別の方法は、テスト時間スケーリングです。複数の出力を生成し、検証剤を使用してスコアリングし、最適な出力を選択します。
効果的ですが、この戦略には多くの場合、過度のサンプリングとコストのかかるスコアリングが必要であり、実用的なアプリケーションが制限されます。
生成を進化プロセスとして扱うサンプル効率の良い方法である進化的テスト時間スケーリング(Evoscale)を提案します。
選択と突然変異を介して出力を繰り返し精製することにより、Evoscaleは出力分布を高得点領域にシフトし、正しいソリューションを見つけるために必要なサンプルの数を減らします。
繰り返しサンプリングと選択からオーバーヘッドを減らすために、強化学習(RL)を使用してモデルを訓練して自己進化させます。
推論時に外部検証剤に頼るのではなく、モデルは、反復全体でそれ自体の世代のスコアを自己改善することを学びます。
SWE-Bench-Verifiedで評価されたEvoscaleにより、32BモデルのSatori-Swe-32Bは、いくつかのサンプルを使用しながら100B以上のパラメーターを持つモデルのパフォーマンスと一致またはそれを超えることができます。
コード、データ、およびモデルは完全にオープンソースがかかります。

要約(オリジナル)

Language models (LMs) perform well on standardized coding benchmarks but struggle with real-world software engineering tasks such as resolving GitHub issues in SWE-Bench, especially when model parameters are less than 100B. While smaller models are preferable in practice due to their lower computational cost, improving their performance remains challenging. Existing approaches primarily rely on supervised fine-tuning (SFT) with high-quality data, which is expensive to curate at scale. An alternative is test-time scaling: generating multiple outputs, scoring them using a verifier, and selecting the best one. Although effective, this strategy often requires excessive sampling and costly scoring, limiting its practical application. We propose Evolutionary Test-Time Scaling (EvoScale), a sample-efficient method that treats generation as an evolutionary process. By iteratively refining outputs via selection and mutation, EvoScale shifts the output distribution toward higher-scoring regions, reducing the number of samples needed to find correct solutions. To reduce the overhead from repeatedly sampling and selection, we train the model to self-evolve using reinforcement learning (RL). Rather than relying on external verifiers at inference time, the model learns to self-improve the scores of its own generations across iterations. Evaluated on SWE-Bench-Verified, EvoScale enables our 32B model, Satori-SWE-32B, to match or exceed the performance of models with over 100B parameters while using a few samples. Code, data, and models will be fully open-sourced.

arxiv情報

著者 Guangtao Zeng,Maohao Shen,Delin Chen,Zhenting Qi,Subhro Das,Dan Gutfreund,David Cox,Gregory Wornell,Wei Lu,Zhang-Wei Hong,Chuang Gan
発行日 2025-05-29 16:15:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering はコメントを受け付けていません

EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation

要約

Exitを導入します。Exitは、質問回答(QA)で検索された生成(RAG)の有効性と効率の両方を強化する抽出コンテキスト圧縮フレームワークです。
現在のRAGシステムは、検索モデルが最も関連性の高いドキュメントのランク付けに失敗し、遅延と精度を犠牲にしてより多くのコンテキストを含めることにつながる場合にしばしば苦労します。
抽象的な圧縮方法はトークンカウントを大幅に減らすことができますが、トークンごとの生成プロセスはエンドツーエンドのレイテンシを大幅に増加させます。
逆に、既存の抽出方法はレイテンシを減らしますが、独立した適応性のない文の選択に依存しており、コンテキスト情報を完全に利用できません。
Exitは、取得したドキュメントから文を分類することにより、これらの制限に対処します – コンテキスト依存関係を保持しながら、クエリの複雑さと検索の品質に適応する並列化可能なコンテキスト認識の抽出を可能にします。
シングルホップとマルチホップの両方のQAタスクの両方での評価は、出口が既存の圧縮方法やQA精度の非圧縮ベースラインを常に上回り、推論時間とトークンカウントの大幅な削減を提供することを示しています。
Exitは、有効性と効率の両方を改善することにより、RAGパイプラインでスケーラブルで高品質のQAソリューションを開発するための有望な方向を提供します。
当社のコードは、https://github.com/thisishwang/exitで入手できます

要約(オリジナル)

We introduce EXIT, an extractive context compression framework that enhances both the effectiveness and efficiency of retrieval-augmented generation (RAG) in question answering (QA). Current RAG systems often struggle when retrieval models fail to rank the most relevant documents, leading to the inclusion of more context at the expense of latency and accuracy. While abstractive compression methods can drastically reduce token counts, their token-by-token generation process significantly increases end-to-end latency. Conversely, existing extractive methods reduce latency but rely on independent, non-adaptive sentence selection, failing to fully utilize contextual information. EXIT addresses these limitations by classifying sentences from retrieved documents – while preserving their contextual dependencies – enabling parallelizable, context-aware extraction that adapts to query complexity and retrieval quality. Our evaluations on both single-hop and multi-hop QA tasks show that EXIT consistently surpasses existing compression methods and even uncompressed baselines in QA accuracy, while also delivering substantial reductions in inference time and token count. By improving both effectiveness and efficiency, EXIT provides a promising direction for developing scalable, high-quality QA solutions in RAG pipelines. Our code is available at https://github.com/ThisIsHwang/EXIT

arxiv情報

著者 Taeho Hwang,Sukmin Cho,Soyeong Jeong,Hoyun Song,SeungYoon Han,Jong C. Park
発行日 2025-05-29 16:18:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | EXIT: Context-Aware Extractive Compression for Enhancing Retrieval-Augmented Generation はコメントを受け付けていません

Table-R1: Inference-Time Scaling for Table Reasoning

要約

この作業では、テーブル推論タスクの推論時間スケーリングを調査する最初の研究を提示します。
推論時のスケーリングを有効にするために、2つのトレーニング後の戦略を開発および評価します。フロンティアモデルの推論トレースと検証可能な報酬(RLVR)による補強学習からの蒸留です。
蒸留のために、deepseek-R1によって生成された推論トレースの大規模なデータセットを導入します。
RLVRの場合、タスク固有の検証可能な報酬関数を提案し、GRPOアルゴリズムを適用してTable-R1-Zeroモデルを取得します。
ショートフォームQA、事実検証、自由形式QAなど、さまざまなテーブル推論タスク全体でテーブルR1シリーズモデルを評価します。
特に、Table-R1-Zeroモデルは、7B-Parameter LLMのみを使用しながら、GPT-4.1とDeepSeek-R1のパフォーマンスと一致するか、それを超えています。
また、ドメイン外データセットへの強力な一般化も示しています。
広範なアブレーションと定性的分析により、指導の調整、モデルアーキテクチャの選択、クロスタスクの一般化の利点、およびRLトレーニング中の必須のテーブル推論スキルの出現が明らかになりました。

要約(オリジナル)

In this work, we present the first study to explore inference-time scaling on table reasoning tasks. We develop and evaluate two post-training strategies to enable inference-time scaling: distillation from frontier model reasoning traces and reinforcement learning with verifiable rewards (RLVR). For distillation, we introduce a large-scale dataset of reasoning traces generated by DeepSeek-R1, which we use to fine-tune LLMs into the Table-R1-SFT model. For RLVR, we propose task-specific verifiable reward functions and apply the GRPO algorithm to obtain the Table-R1-Zero model. We evaluate our Table-R1-series models across diverse table reasoning tasks, including short-form QA, fact verification, and free-form QA. Notably, the Table-R1-Zero model matches or exceeds the performance of GPT-4.1 and DeepSeek-R1, while using only a 7B-parameter LLM. It also demonstrates strong generalization to out-of-domain datasets. Extensive ablation and qualitative analyses reveal the benefits of instruction tuning, model architecture choices, and cross-task generalization, as well as emergence of essential table reasoning skills during RL training.

arxiv情報

著者 Zheyuan Yang,Lyuhao Chen,Arman Cohan,Yilun Zhao
発行日 2025-05-29 16:28:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Table-R1: Inference-Time Scaling for Table Reasoning はコメントを受け付けていません

Characterizing the Expressivity of Transformer Language Models

要約

トランスベースの言語モデル(LMS)は、広範な経験的成功を達成していますが、それらの理論的表現力は部分的にしか理解されていません。
以前の研究は、多くの場合、実世界の変圧器から分岐する任意の数値精度や硬い注意などの仮定を持つ理想化されたモデルに依存しています。
この作業では、厳密な将来のマスキングとソフトな注意を払って、固定精度トランスの正確な特性評価を提供します。これは、より実用的な実装をより密接に反映する理想化です。
これらのモデルは、単一の時間演算子のみを含む線形時間論理の特定のフラグメントである過去の演算子と同じように正確に表現力があることを示します。
さらに、この論理を、正式な言語理論、オートマトン理論、代数の確立されたクラスに関連付け、トランスの表現力を理解するための豊富で統一された理論的枠組みをもたらします。
最後に、理論と密接に整合する経験的結果を提示します。理論的能力内の言語で訓練されたトランスは、長さで完全に一般化しますが、それを超えた言語を一般化することは一貫していません。

要約(オリジナル)

Transformer-based language models (LMs) have achieved widespread empirical success, but their theoretical expressive power remains only partially understood. Prior work often relies on idealized models with assumptions — such as arbitrary numerical precision and hard attention — that diverge from real-world transformers. In this work, we provide an exact characterization of fixed-precision transformers with strict future masking and soft attention, an idealization that more closely mirrors practical implementations. We show that these models are precisely as expressive as a specific fragment of linear temporal logic that includes only a single temporal operator: the past operator. We further relate this logic to established classes in formal language theory, automata theory, and algebra, yielding a rich and unified theoretical framework for understanding transformer expressivity. Finally, we present empirical results that align closely with our theory: transformers trained on languages within their theoretical capacity generalize perfectly over lengths, while they consistently fail to generalize on languages beyond it.

arxiv情報

著者 Jiaoda Li,Ryan Cotterell
発行日 2025-05-29 16:30:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Characterizing the Expressivity of Transformer Language Models はコメントを受け付けていません

RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning

要約

正式なロジックにより、コンピューターは象徴的な形式で文を表すことにより、コンピューターが自然言語で推論し、ルールを適用して結論を​​導き出すことができます。
しかし、私たちの研究が「ルールブレイカー」のシナリオと特徴付けていることで、この方法は、彼らの常識と事実の知識を考慮して、人間によって通常推測または受け入れられない結論につながる可能性があります。
認知科学の作品に触発されて、ルールブレイカーは、人間のような方法でルールブレイカー(非ルールブレイカー)を認識して応答する大規模な言語モデル(LLM)の能力を厳密に評価するための最初のデータセットを作成します。
7つのLLMSを評価すると、GPT-4Oを含むほとんどのモデルがルールブレーカーの平凡な精度を達成し、典型的な人間の推論者に予想されるものとは異なり、論理ルールを過度に適用する傾向を示すことがわかります。
さらなる分析は、この明らかな障害が、モデルの世界知識の利用不良と注意分布パターンに潜在的に関連していることを示唆しています。
現在のLLMの制限を明らかにしながら、私たちの研究は、LLMSの一般的な推論能力を改善するための正式な論理に依存している方法を提案し、LLMSと人間のような推論の間の発散をさらに高めるリスクを強調する最近の作品の増加体にタイムリーな相殺を提供します。

要約(オリジナル)

Formal logic enables computers to reason in natural language by representing sentences in symbolic forms and applying rules to derive conclusions. However, in what our study characterizes as ‘rulebreaker’ scenarios, this method can lead to conclusions that are typically not inferred or accepted by humans given their common sense and factual knowledge. Inspired by works in cognitive science, we create RULEBREAKERS, the first dataset for rigorously evaluating the ability of large language models (LLMs) to recognize and respond to rulebreakers (versus non-rulebreakers) in a human-like manner. Evaluating seven LLMs, we find that most models, including GPT-4o, achieve mediocre accuracy on RULEBREAKERS and exhibit some tendency to over-rigidly apply logical rules unlike what is expected from typical human reasoners. Further analysis suggests that this apparent failure is potentially associated with the models’ poor utilization of their world knowledge and their attention distribution patterns. Whilst revealing a limitation of current LLMs, our study also provides a timely counterbalance to a growing body of recent works that propose methods relying on formal logic to improve LLMs’ general reasoning capabilities, highlighting their risk of further increasing divergence between LLMs and human-like reasoning.

arxiv情報

著者 Jason Chan,Robert Gaizauskas,Zhixue Zhao
発行日 2025-05-29 16:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RULEBREAKERS: Challenging LLMs at the Crossroads between Formal Logic and Human-like Reasoning はコメントを受け付けていません