Towards Practical First-Order Model Counting

要約

一次モデルカウント(FOMC)は、一次ロジックで文のモデルの数をカウントする問題です。
持ち上げられた推論手法は、FOMCのバリエーションの削減に依存しているため、FOMCのスケーラブルな方法の設計は、過去10年間にわたって理論家と実践者の両方から注目を集めています。
最近、1次の知識編集に基づいた新しいアプローチが提案されました。
クレーンと呼ばれるこのアプローチは、単に最終カウントを提供するのではなく、異なる引数で評価して任意のドメインサイズのモデルカウントを計算できる(再帰的)関数の定義を生成します。
ただし、構築された機能の手動評価が必要なため、このアプローチは完全に自動化されていません。
この作業の主な貢献は、crane2と呼ばれる完全に自動化されたコンパイルアルゴリズムであり、関数定義を任意の前提条件算術を装備したC ++コードに変換します。
これらの追加により、新しいFOMCアルゴリズムは、実験結果を通じて実証されているように、現在のARTの最新倍の500,000倍を超えるドメインサイズにスケーリングできます。

要約(オリジナル)

First-order model counting (FOMC) is the problem of counting the number of models of a sentence in first-order logic. Since lifted inference techniques rely on reductions to variants of FOMC, the design of scalable methods for FOMC has attracted attention from both theoreticians and practitioners over the past decade. Recently, a new approach based on first-order knowledge compilation was proposed. This approach, called Crane, instead of simply providing the final count, generates definitions of (possibly recursive) functions that can be evaluated with different arguments to compute the model count for any domain size. However, this approach is not fully automated, as it requires manual evaluation of the constructed functions. The primary contribution of this work is a fully automated compilation algorithm, called Crane2, which transforms the function definitions into C++ code equipped with arbitrary-precision arithmetic. These additions allow the new FOMC algorithm to scale to domain sizes over 500,000 times larger than the current state of the art, as demonstrated through experimental results.

arxiv情報

著者 Ananth K. Kidambi,Guramrit Singh,Paulius Dilkas,Kuldeep S. Meel
発行日 2025-06-10 17:03:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LO | Towards Practical First-Order Model Counting はコメントを受け付けていません

Mechanistic Decomposition of Sentence Representations

要約

文の埋め込みは、最新のNLPおよびAIシステムの中心ですが、内部構造についてはほとんど知られていません。
Cosineの類似性などの測定値を使用してこれらの埋め込みを比較することはできますが、寄与機能は人間の解釈ではなく、埋め込みの内容は、複雑な神経変換と個々のトークンの埋め込みを組み合わせた最終的なプーリング操作によってマスクされているため、追跡できないように思えます。
この問題を軽減するために、トークンレベルの表現で辞書学習を使用して、文の埋め込みを解釈可能なコンポーネントに機械的に分解する新しい方法を提案します。
プーリングがこれらの機能を文の表現に圧縮する方法を分析し、文の埋め込みに存在する潜在的な特徴を評価します。
このブリッジは、文レベルの分析を伴うトークンレベルの機械的解釈可能性を発揮し、より透明で制御可能な表現を実現します。
私たちの研究では、たとえば、多くのセマンティックおよび構文の側面が埋め込みで直線的にエンコードされているという文の内側の仕組みに関するいくつかの興味深い洞察を得ています。

要約(オリジナル)

Sentence embeddings are central to modern NLP and AI systems, yet little is known about their internal structure. While we can compare these embeddings using measures such as cosine similarity, the contributing features are not human-interpretable, and the content of an embedding seems untraceable, as it is masked by complex neural transformations and a final pooling operation that combines individual token embeddings. To alleviate this issue, we propose a new method to mechanistically decompose sentence embeddings into interpretable components, by using dictionary learning on token-level representations. We analyze how pooling compresses these features into sentence representations, and assess the latent features that reside in a sentence embedding. This bridges token-level mechanistic interpretability with sentence-level analysis, making for more transparent and controllable representations. In our studies, we obtain several interesting insights into the inner workings of sentence embedding spaces, for instance, that many semantic and syntactic aspects are linearly encoded in the embeddings.

arxiv情報

著者 Matthieu Tehenan,Vikram Natarajan,Jonathan Michala,Milton Lin,Juri Opitz
発行日 2025-06-10 17:05:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Mechanistic Decomposition of Sentence Representations はコメントを受け付けていません

Employing self-supervised learning models for cross-linguistic child speech maturity classification

要約

スピーチテクノロジーシステムは、小規模なトレーニングコーパスと子どものスピーチがもたらす困難により、子どものスピーチのための多くの下流タスクと闘っています。
新しいデータセットであるSpeechMaturityを最先端の変圧器モデルに適用して、基本的な分類タスク、つまり子供の発声を識別します。
以前のコーパスとは異なり、当社のデータセットは、米国、ボリビア、バヌアツ、パプアニューギニア、ソロモン諸島、フランスで25以上の言語を獲得する子どもたちを含む、前例のないサンプル全体で生態学的に有効な子供の発声を最大限に捉えています。
データセットには、242,004のラベル付きボーカリゼーションが含まれています。これは、以前の作業よりも大きい大きさです。
モデルは、泣き声、笑い、成熟(子音+母音)、未熟な発話(ただ子音または母音)を区別するために訓練されました。
データセットでトレーニングされたモデルは、以前のデータセットでトレーニングされた最先端のモデルを上回り、人間に匹敵する分類精度を達成し、農村部と都市部で堅牢でした。

要約(オリジナル)

Speech technology systems struggle with many downstream tasks for child speech due to small training corpora and the difficulties that child speech pose. We apply a novel dataset, SpeechMaturity, to state-of-the-art transformer models to address a fundamental classification task: identifying child vocalizations. Unlike previous corpora, our dataset captures maximally ecologically-valid child vocalizations across an unprecedented sample, comprising children acquiring 25+ languages in the U.S., Bolivia, Vanuatu, Papua New Guinea, Solomon Islands, and France. The dataset contains 242,004 labeled vocalizations, magnitudes larger than previous work. Models were trained to distinguish between cry, laughter, mature (consonant+vowel), and immature speech (just consonant or vowel). Models trained on the dataset outperform state-of-the-art models trained on previous datasets, achieved classification accuracy comparable to humans, and were robust across rural and urban settings.

arxiv情報

著者 Theo Zhang,Madurya Suresh,Anne S. Warlaumont,Kasia Hitczenko,Alejandrina Cristia,Margaret Cychosz
発行日 2025-06-10 17:20:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Employing self-supervised learning models for cross-linguistic child speech maturity classification はコメントを受け付けていません

Towards Reliable Proof Generation with LLMs: A Neuro-Symbolic Approach

要約

大規模な言語モデル(LLM)は、数学的証明生成など、厳密な論理的控除と象徴的な推論を必要とする正式なドメインと闘っています。
この課題を克服するために、LLMSの生成強度と構造化されたコンポーネントを組み合わせた神経腫瘍アプローチを提案します。
概念実証として、幾何学の問題に焦点を当てます。
私たちのアプローチは2つあります。(1)類似の問題を取得し、それらの証明を使用してLLMを導き、(2)正式な検証剤が生成された証明を評価し、フィードバックを提供し、モデルが誤った証明を修正するのに役立ちます。
私たちの方法は、OpenaiのO1モデルの証明精度を大幅に改善することを実証します(58%-70%の改善)。
類似の問題と検証者のフィードバックの両方が、これらの利益に貢献します。
より広く、実証的に正しい結論を生成するLLMSに移行すると、信頼性、精度、一貫性が劇的に改善され、複雑なタスクと信頼性を必要とする重要な現実世界のアプリケーションのロックが解除される可能性があります。

要約(オリジナル)

Large language models (LLMs) struggle with formal domains that require rigorous logical deduction and symbolic reasoning, such as mathematical proof generation. We propose a neuro-symbolic approach that combines LLMs’ generative strengths with structured components to overcome this challenge. As a proof-of-concept, we focus on geometry problems. Our approach is two-fold: (1) we retrieve analogous problems and use their proofs to guide the LLM, and (2) a formal verifier evaluates the generated proofs and provides feedback, helping the model fix incorrect proofs. We demonstrate that our method significantly improves proof accuracy for OpenAI’s o1 model (58%-70% improvement); both analogous problems and the verifier’s feedback contribute to these gains. More broadly, shifting to LLMs that generate provably correct conclusions could dramatically improve their reliability, accuracy and consistency, unlocking complex tasks and critical real-world applications that require trustworthiness.

arxiv情報

著者 Oren Sultan,Eitan Stern,Dafna Shahaf
発行日 2025-06-10 17:22:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Reliable Proof Generation with LLMs: A Neuro-Symbolic Approach はコメントを受け付けていません

Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

要約

大規模な言語モデル(LLM)は、さまざまなドメインにわたって顕著な機能を紹介しています。
進化する機能とLLMSの展開シナリオの拡大に伴い、展開の課題は、それらの規模と、Llama、Gemma、Mistralなどの顕著なモデルシリーズで一般的でありながら複雑な活性化設計により、エスカレートします。
これらの課題は、リソースに制約のある展開シナリオで特に顕著になりました。このシナリオでは、推論のボトルネックを緩和することが不可欠です。
さまざまな最近の取り組みの中で、アクティベーション近似は、推論効率を追求するための有望な手段として浮上しており、私的推論などのアプリケーションでは不可欠であると見なされることもあります。
ユーティリティへの影響を最小限に抑えて実質的なスピードアップを達成し、実際の展開には健全で実用的に見えることさえありますが、アクティベーション近似の安全性への影響は不明のままです。
この作業では、活性化近似の最初の体系的な安全評価を実施することにより、LLMの安全性におけるこの重要なギャップを埋めます。
私たちの安全性審査は、3つの人気のあるカテゴリ(活性化多項式化、活性化のスパース化、および活性化量子化)にわたって7つの最先端の技術に及び、10の安全に配置されたLLMにわたって一貫した安全性分解を明らかにします。
多様なアクティベーション近似方法の統一された防御を考案するというハードルを克服するために、共有エラーパターンの詳細な分析を実行し、3つの重要な調査結果を明らかにします。
アクティベーション近似によって導入された安全性の妥協を軽減するために調整された新しい安全性向上方法であるQuadaを提案します。
広範な実験とアブレーション研究は、活性化近似後のLLMの安全能力を高める上でのQuadaの有効性を裏付けています。

要約(オリジナル)

Large Language Models (LLMs) have showcased remarkable capabilities across various domains. Accompanying the evolving capabilities and expanding deployment scenarios of LLMs, their deployment challenges escalate due to their sheer scale and the advanced yet complex activation designs prevalent in notable model series, such as Llama, Gemma, Mistral. These challenges have become particularly pronounced in resource-constrained deployment scenarios, where mitigating inference bottlenecks is imperative. Among various recent efforts, activation approximation has emerged as a promising avenue for pursuing inference efficiency, sometimes considered indispensable in applications such as private inference. Despite achieving substantial speedups with minimal impact on utility, even appearing sound and practical for real-world deployment, the safety implications of activation approximations remain unclear. In this work, we fill this critical gap in LLM safety by conducting the first systematic safety evaluation of activation approximations. Our safety vetting spans seven state-of-the-art techniques across three popular categories (activation polynomialization, activation sparsification, and activation quantization), revealing consistent safety degradation across ten safety-aligned LLMs. To overcome the hurdle of devising a unified defense accounting for diverse activation approximation methods, we perform an in-depth analysis of their shared error patterns and uncover three key findings. We propose QuadA, a novel safety enhancement method tailored to mitigate the safety compromises introduced by activation approximations. Extensive experiments and ablation studies corroborate QuadA’s effectiveness in enhancing the safety capabilities of LLMs after activation approximations.

arxiv情報

著者 Jiawen Zhang,Kejia Chen,Lipeng He,Jian Lou,Dan Li,Zunlei Feng,Mingli Song,Jian Liu,Kui Ren,Xiaohu Yang
発行日 2025-06-10 17:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense はコメントを受け付けていません

Scalable Equilibrium Sampling with Sequential Boltzmann Generators

要約

熱力学的平衡における分子状態のスケーラブルなサンプリングは、統計物理学における長年の課題です。
Boltzmannジェネレーターは、正規化フローと重要なサンプリングを組み合わせて、ターゲット分布の下で無相関サンプルを取得することにより、この問題に取り組みます。
このホワイトペーパーでは、Boltzmannジェネレーターフレームワークを2つの重要な貢献度で拡張し、フレームワークのシーケンシャルボルツマンジェネレーター(SBG)を示します。
1つ目は、全原子デカルト座標で直接動作する非常に効率的なトランスベースの正規化フローです。
以前の方法の等量の連続流とは対照的に、サンプルの生成と尤度評価の両方で非常に効率的な、正確に反転可能な非等変量アーキテクチャを活用します。
この効率は、標準的な重要性サンプリングを超えて、より洗練された推論戦略のロックを解除します。
特に、シーケンシャルモンテカルロの連続時間バリアントを使用してフローサンプルの推論時間スケーリングを実行します。このカルロでは、アニールされたランジュビンダイナミクスを使用して、フローサンプルがターゲット分布に向かって輸送されます。
SBGは最先端のパフォーマンスW.R.T.
ペプチド系のすべてのメトリックは、以前のボルツマン発電機にとってこれまで扱いにくいトリ、テトラ、ヘキサペプチドのデカルト座標における最初の平衡サンプリングを実証しています。

要約(オリジナル)

Scalable sampling of molecular states in thermodynamic equilibrium is a long-standing challenge in statistical physics. Boltzmann generators tackle this problem by pairing normalizing flows with importance sampling to obtain uncorrelated samples under the target distribution. In this paper, we extend the Boltzmann generator framework with two key contributions, denoting our framework Sequential Boltzmann Generators (SBG). The first is a highly efficient Transformer-based normalizing flow operating directly on all-atom Cartesian coordinates. In contrast to the equivariant continuous flows of prior methods, we leverage exactly invertible non-equivariant architectures which are highly efficient during both sample generation and likelihood evaluation. This efficiency unlocks more sophisticated inference strategies beyond standard importance sampling. In particular, we perform inference-time scaling of flow samples using a continuous-time variant of sequential Monte Carlo, in which flow samples are transported towards the target distribution with annealed Langevin dynamics. SBG achieves state-of-the-art performance w.r.t. all metrics on peptide systems, demonstrating the first equilibrium sampling in Cartesian coordinates of tri-, tetra- and hexa-peptides that were thus far intractable for prior Boltzmann generators.

arxiv情報

著者 Charlie B. Tan,Avishek Joey Bose,Chen Lin,Leon Klein,Michael M. Bronstein,Alexander Tong
発行日 2025-06-10 17:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Scalable Equilibrium Sampling with Sequential Boltzmann Generators はコメントを受け付けていません

Edit Flows: Flow Matching with Edit Operations

要約

自己回帰の生成モデルは、自然に可変長シーケンスを自然に生成しますが、非自動性モデルは苦労し、しばしば剛性のあるトークンごとの構造を課します。
編集操作、削除、および置換を介してシーケンス上の個別のフローを定義することにより、これらの制限を克服する非自動網性モデルである編集フローを提案します。
シーケンススペースを介した連続時間マルコフチェーン内でこれらの操作をモデル化することにより、編集フローを有効にして、シーケンスデータの構造とより密接に整合する柔軟で位置関連の生成を可能にします。
当社のトレーニング方法は、補助変数を使用して拡張された状態空間を活用して、学習プロセスを効率的かつ扱いやすくします。
経験的結果は、編集フローが画像キャプションのモデルとマスクモデルの両方を上回り、テキストとコード生成のマスク構造を大幅に上回ることを示しています。

要約(オリジナル)

Autoregressive generative models naturally generate variable-length sequences, while non-autoregressive models struggle, often imposing rigid, token-wise structures. We propose Edit Flows, a non-autoregressive model that overcomes these limitations by defining a discrete flow over sequences through edit operations-insertions, deletions, and substitutions. By modeling these operations within a Continuous-time Markov Chain over the sequence space, Edit Flows enable flexible, position-relative generation that aligns more closely with the structure of sequence data. Our training method leverages an expanded state space with auxiliary variables, making the learning process efficient and tractable. Empirical results show that Edit Flows outperforms both autoregressive and mask models on image captioning and significantly outperforms the mask construction in text and code generation.

arxiv情報

著者 Marton Havasi,Brian Karrer,Itai Gat,Ricky T. Q. Chen
発行日 2025-06-10 17:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Edit Flows: Flow Matching with Edit Operations はコメントを受け付けていません

High-Throughput Phenotyping of Clinical Text Using Large Language Models

要約

ハイスループットの表現型は、患者の兆候の標準化されたオントロジーの概念へのマッピングを自動化し、精密医療に不可欠です。
この研究では、大規模な言語モデルを使用したオンラインメンデル継承(OMIM)データベースからの臨床要約の表現型の自動化を評価します。
豊富な表現型データにより、これらの要約は医師のメモの代理となる可能性があります。
GPT-4とGPT-3.5ターボのパフォーマンス比較を実施します。
我々の結果は、GPT-4がGPT-3.5ターボを識別、分類、および正規化し、評価者間合意に匹敵する手動アノテーターとの一致を達成することを上回っていることを示しています。
標識の正規化のいくつかの制限にもかかわらず、GPT-4の広範なトレーニングは、手動で注釈されたトレーニングデータの必要性を排除しながら、いくつかの表現型タスクにわたって高性能と一般化可能性をもたらします。
大規模な言語モデルは、臨床テキストのハイスループット表現型を自動化するための支配的な方法であると予想されます。

要約(オリジナル)

High-throughput phenotyping automates the mapping of patient signs to standardized ontology concepts and is essential for precision medicine. This study evaluates the automation of phenotyping of clinical summaries from the Online Mendelian Inheritance in Man (OMIM) database using large language models. Due to their rich phenotype data, these summaries can be surrogates for physician notes. We conduct a performance comparison of GPT-4 and GPT-3.5-Turbo. Our results indicate that GPT-4 surpasses GPT-3.5-Turbo in identifying, categorizing, and normalizing signs, achieving concordance with manual annotators comparable to inter-rater agreement. Despite some limitations in sign normalization, the extensive pre-training of GPT-4 results in high performance and generalizability across several phenotyping tasks while obviating the need for manually annotated training data. Large language models are expected to be the dominant method for automating high-throughput phenotyping of clinical text.

arxiv情報

著者 Daniel B. Hier,S. Ilyas Munzir,Anne Stahlfeld,Tayo Obafemi-Ajayi,Michael D. Carrithers
発行日 2025-06-10 17:51:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2 | High-Throughput Phenotyping of Clinical Text Using Large Language Models はコメントを受け付けていません

JuStRank: Benchmarking LLM Judges for System Ranking

要約

生成AIの急速な進歩を考えると、利用可能な多数のモデルと構成を体系的に比較して選択する必要があります。
このような評価の規模と汎用性により、LLMベースの裁判官を使用することは、この課題に対する説得力のある解決策となっています。
重要なことに、このアプローチでは、最初にLLMジャッジ自体の品質を検証する必要があります。
以前の研究では、LLM裁判官のインスタンスベースの評価に焦点を当てており、裁判官は、ソースシステムに不可知論されながら、一連の応答または応答ペアで評価されます。
この設定は、特定のシステムに対する裁判官の肯定的または否定的なバイアスなど、システムレベルのランキングに影響を与える重要な要因を見落としていると主張します。
このギャップに対処するために、システムランカーとしてLLM審査員の最初の大規模な研究を実施します。
システムスコアは、複数のシステム出力を介した判断スコアを集約することにより生成され、裁判官の品質は、結果のシステムランキングを人間ベースのランキングと比較することで評価されます。
全体的な裁判官の評価を超えて、我々の分析は、その決定性やバイアスを含む裁判官の行動のきめの細かい特性評価を提供します。

要約(オリジナル)

Given the rapid progress of generative AI, there is a pressing need to systematically compare and choose between the numerous models and configurations available. The scale and versatility of such evaluations make the use of LLM-based judges a compelling solution for this challenge. Crucially, this approach requires first to validate the quality of the LLM judge itself. Previous work has focused on instance-based assessment of LLM judges, where a judge is evaluated over a set of responses, or response pairs, while being agnostic to their source systems. We argue that this setting overlooks critical factors affecting system-level ranking, such as a judge’s positive or negative bias towards certain systems. To address this gap, we conduct the first large-scale study of LLM judges as system rankers. System scores are generated by aggregating judgment scores over multiple system outputs, and the judge’s quality is assessed by comparing the resulting system ranking to a human-based ranking. Beyond overall judge assessment, our analysis provides a fine-grained characterization of judge behavior, including their decisiveness and bias.

arxiv情報

著者 Ariel Gera,Odellia Boni,Yotam Perlitz,Roy Bar-Haim,Lilach Eden,Asaf Yehudai
発行日 2025-06-10 17:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | JuStRank: Benchmarking LLM Judges for System Ranking はコメントを受け付けていません

Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning

要約

多様な大手言語モデル(LLMS)の急速な出現により、ユーザークエリを最も適切なモデルに割り当てるLLMルーターの開発が促進されました。
ただし、既存のLLMルーターは通常、単一ラウンドの1対1マッピング(\ textit {i.e。}、各クエリを単一モデルに割り当てて単一モデルに割り当てます)を実行します。
このホワイトペーパーでは、マルチLORMルーティングと集約を順次決定プロセスとして定式化する強化学習(RL)ベースのフレームワークである\ textBf {router-r1}を提示します。
Router-R1は、ルーター自体を有能なLLMとしてインスタンス化し、「ルート」アクション(動的モデルの呼び出し)と「Think」アクション(内部審議)をインターリーブする推論能力を活用し、各応答を進化するコンテキストに統合します。
学習を導くために、フォーマットの報酬、最終結果の報酬、パフォーマンスとコストのトレードオフの最適化に対する新しいコスト報酬を含む軽量ルールベースの報酬を採用し、RLを介したパフォーマンスコストのトレードオフを最適化するための経路を開きます。
Router-R1は、価格設定、遅延、パフォーマンスの例などの単純なモデル記述子のみを条件とし、目に見えないモデル選択に強力な一般化を可能にします。
7つの一般的およびマルチホップQAベンチマークでの実験は、Router-R1がいくつかの強力なベースラインよりも優れていることを示しており、堅牢な一般化とコスト管理を維持しながら優れたパフォーマンスを達成します。コードはhttps://github.com/ulab-uiuc/router-r1で入手できます。

要約(オリジナル)

The rapid emergence of diverse large language models (LLMs) has spurred the development of LLM routers that assign user queries to the most suitable model. However, existing LLM routers typically perform a single-round, one-to-one mapping (\textit{i.e.}, assigning each query to a single model in isolation), which limits their capability to tackle complex tasks that demand the complementary strengths of multiple LLMs. In this paper, we present \textbf{Router-R1}, a reinforcement learning (RL)-based framework that formulates multi-LLM routing and aggregation as a sequential decision process. Router-R1 instantiates the router itself as a capable LLM, leveraging its reasoning ability to interleave ‘think’ actions (internal deliberation) with ‘route’ actions (dynamic model invocation), and integrates each response into its evolving context. To guide learning, we employ a lightweight rule-based reward comprising format rewards, final outcome rewards, and a novel cost reward for performance and cost trade-off optimization, opening a pathway toward optimizing performance-cost tradeoffs via RL. Router-R1 also conditions only on simple model descriptors such as pricing, latency, and example performance, enabling strong generalization to unseen model selection. Experiments on seven general and multi-hop QA benchmarks show that Router-R1 outperforms over several strong baselines, achieving superior performance while maintaining robust generalization and cost management.Code is available at https://github.com/ulab-uiuc/Router-R1.

arxiv情報

著者 Haozhen Zhang,Tao Feng,Jiaxuan You
発行日 2025-06-10 17:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning はコメントを受け付けていません