Adaptive Variational Inference in Probabilistic Graphical Models: Beyond Bethe, Tree-Reweighted, and Convex Free Energies

要約

確率的グラフィカルモデルの変動推論は、限界分布やパーティション関数などの基本量を近似することを目的としています。
人気のあるアプローチは、Bethe近似、樹木が高く、他の種類の凸のないエネルギーです。
これらの近似は効率的ですが、モデルが複雑で高度にインタラクティブな場合、失敗する可能性があります。
この作業では、上記の方法を特別なケースとして含む2つのクラスの近似を分析します。まず、モデルパラメーターが変更された場合。
第二に、エントロピー近似が変更された場合。
いずれかのアプローチの利点と欠点について説明し、この分析から、自由エネルギー近似を理想的に構築する方法を推測します。
観察に基づいて、特定のモデルに自動的に適応し、さまざまな困難な問題に対する有効性を実証する近似を提案します。

要約(オリジナル)

Variational inference in probabilistic graphical models aims to approximate fundamental quantities such as marginal distributions and the partition function. Popular approaches are the Bethe approximation, tree-reweighted, and other types of convex free energies. These approximations are efficient but can fail if the model is complex and highly interactive. In this work, we analyze two classes of approximations that include the above methods as special cases: first, if the model parameters are changed; and second, if the entropy approximation is changed. We discuss benefits and drawbacks of either approach, and deduce from this analysis how a free energy approximation should ideally be constructed. Based on our observations, we propose approximations that automatically adapt to a given model and demonstrate their effectiveness for a range of difficult problems.

arxiv情報

著者 Harald Leisenberger,Franz Pernkopf
発行日 2025-02-05 16:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Adaptive Variational Inference in Probabilistic Graphical Models: Beyond Bethe, Tree-Reweighted, and Convex Free Energies はコメントを受け付けていません

Robust Autonomy Emerges from Self-Play

要約

セルフプレイは、2人のプレイヤーとマルチプレイヤーゲームでパワーブレークスルーを持っています。
ここでは、自己プレイが別のドメインで驚くほど効果的な戦略であることを示します。
堅牢で自然主義的な運転は、前例のないスケールでのシミュレーションの自己プレイ(1.6 億〜kmの運転)から完全に現れていることを示しています。
これは、単一の8 gPUノードで1時間あたり42年間の主観的運転体験を合成およびトレーニングできるバッチシミュレーターであるGigaflowによって有効になります。
結果として生じるポリシーは、3つの独立した自律運転ベンチマークで最先端のパフォーマンスを実現します。
このポリシーは、トレーニング中に人間のデータを見ることなく、人間のドライバーの中で、記録された現実世界のシナリオでテストされたときに、以前の最先端を上回ります。
このポリシーは、人間の参照に対して評価され、前例のない堅牢性を達成すると現実的です。

要約(オリジナル)

Self-play has powered breakthroughs in two-player and multi-player games. Here we show that self-play is a surprisingly effective strategy in another domain. We show that robust and naturalistic driving emerges entirely from self-play in simulation at unprecedented scale — 1.6~billion~km of driving. This is enabled by Gigaflow, a batched simulator that can synthesize and train on 42 years of subjective driving experience per hour on a single 8-GPU node. The resulting policy achieves state-of-the-art performance on three independent autonomous driving benchmarks. The policy outperforms the prior state of the art when tested on recorded real-world scenarios, amidst human drivers, without ever seeing human data during training. The policy is realistic when assessed against human references and achieves unprecedented robustness, averaging 17.5 years of continuous driving between incidents in simulation.

arxiv情報

著者 Marco Cusumano-Towner,David Hafner,Alex Hertzberg,Brody Huval,Aleksei Petrenko,Eugene Vinitsky,Erik Wijmans,Taylor Killian,Stuart Bowers,Ozan Sener,Philipp Krähenbühl,Vladlen Koltun
発行日 2025-02-05 16:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Robust Autonomy Emerges from Self-Play はコメントを受け付けていません

A Beam’s Eye View to Fluence Maps 3D Network for Ultra Fast VMAT Radiotherapy Planning

要約

体積変調アーク療法(VMAT)は、健康な組織を節約しながら放射線を正確に送達することにより、がん治療に革命をもたらします。
VMAT計画において重要なフルエンスマップの生成は、伝統的に複雑で反復的であり、したがって時間がかかるプロセスを伴います。
これらのフルエンスマップは、その後、葉シーケンスのために活用されます。
この記事で提示されている深い学習アプローチは、患者データからのフルエンスマップを直接予測することにより、これを促進することを目的としています。
L1とL2の損失の組み合わせを使用して、監督付きの方法でトレーニングした3Dネットワーク、およびEclipseおよびRequite Datasetから生成されたRTプランを使用して、RT用量マップを入力として取得し、対応するRTプランから計算されたフルエンスマップを取得します。
ターゲットとして。
私たちのネットワークは、単一のARC VMATプランの180制御ポイント(CP)に対応する180のフルエンスマップを共同で予測します。
ネットワークを支援するために、フルエンスマップと同じ座標系で、3D用量マップの投影を180 cpsのビーム目視ビュー(BEV)に計算することにより、入力用量を前処理します。
Eclipseを使用して2000を超えるVMATプランを生成して、データセットサイズを拡大しました。
さらに、さまざまなネットワークアーキテクチャを評価し、データセットサイズの増加の影響を分析しました。
画像メトリック(PSNR、SSIM)を使用して2D Fluence Mapsドメインのパフォーマンスを測定し、検証データセットで用量容積ヒストグラム(DVH)を使用して3D用量ドメインで測定しています。
データの読み込みと処理を含まないネットワーク推論は、20ミリ秒未満です。
提案されている3Dネットワークアーキテクチャを使用し、Eclipseを使用してデータセットサイズを増やすと、元のRecite DatasetでトレーニングされたU-Netアーキテクチャと比較して、PSNRでFulence Mapの再構成パフォーマンスが約8 dB改善されました。
結果のDVHは、入力ターゲット用量の1つに非常に近いです。

要約(オリジナル)

Volumetric Modulated Arc Therapy (VMAT) revolutionizes cancer treatment by precisely delivering radiation while sparing healthy tissues. Fluence maps generation, crucial in VMAT planning, traditionally involves complex and iterative, and thus time consuming processes. These fluence maps are subsequently leveraged for leaf-sequence. The deep-learning approach presented in this article aims to expedite this by directly predicting fluence maps from patient data. We developed a 3D network which we trained in a supervised way using a combination of L1 and L2 losses, and RT plans generated by Eclipse and from the REQUITE dataset, taking the RT dose map as input and the fluence maps computed from the corresponding RT plans as target. Our network predicts jointly the 180 fluence maps corresponding to the 180 control points (CP) of single arc VMAT plans. In order to help the network, we pre-process the input dose by computing the projections of the 3D dose map to the beam’s eye view (BEV) of the 180 CPs, in the same coordinate system as the fluence maps. We generated over 2000 VMAT plans using Eclipse to scale up the dataset size. Additionally, we evaluated various network architectures and analyzed the impact of increasing the dataset size. We are measuring the performance in the 2D fluence maps domain using image metrics (PSNR, SSIM), as well as in the 3D dose domain using the dose-volume histogram (DVH) on a validation dataset. The network inference, which does not include the data loading and processing, is less than 20ms. Using our proposed 3D network architecture as well as increasing the dataset size using Eclipse improved the fluence map reconstruction performance by approximately 8 dB in PSNR compared to a U-Net architecture trained on the original REQUITE dataset. The resulting DVHs are very close to the one of the input target dose.

arxiv情報

著者 Simon Arberet,Florin C. Ghesu,Riqiang Gao,Martin Kraus,Jonathan Sackett,Esa Kuusela,Ali Kamen
発行日 2025-02-05 16:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.IV, physics.med-ph | A Beam’s Eye View to Fluence Maps 3D Network for Ultra Fast VMAT Radiotherapy Planning はコメントを受け付けていません

PalimpChat: Declarative and Interactive AI analytics

要約

生成アーキテクチャと大規模な言語モデルの進歩のおかげで、データサイエンティストは、マシンラーニング操作のパイプラインをコーディングして、構造化されていないデータの大規模なコレクションを処理できるようになりました。
最近の進歩により、宣言的なAIフレームワーク(Palimpzest、Lotus、Docetlなど)が最適化され、ますます複雑なパイプラインを構築することができましたが、これらのシステムは専門のプログラマーのみがアクセスできることがよくあります。
このデモンストレーションでは、ユーザーが自然言語だけで洗練されたAIパイプラインを作成および実行できるようにすることで、このギャップを橋渡しするPalimpzestへのチャットベースのインターフェイスであるPalimpchatを提示します。
Reactベースの推論エージェントであるArchytas、およびPalimpzestのリレーショナルおよびLLMベースのオペレーターのスイートを統合することにより、Palimpchatは、チャットインターフェイスが宣言的なAIフレームワークを非専門家が真にアクセスできるようにする方法の実用的なイラストを提供します。
デモシステムはオンラインで公開されています。
Sigmod’25では、参加者は、科学的な発見、法的発見、不動産検索の3つの現実世界のシナリオを探索するか、Palimpchatを独自のデータセットに適用できます。
この論文では、Palimpzest OptimizerにサポートされているPalimpchatが、生物医学データの抽出や分析などの複雑なAIワークフローをどのように簡素化するかに焦点を当てています。

要約(オリジナル)

Thanks to the advances in generative architectures and large language models, data scientists can now code pipelines of machine-learning operations to process large collections of unstructured data. Recent progress has seen the rise of declarative AI frameworks (e.g., Palimpzest, Lotus, and DocETL) to build optimized and increasingly complex pipelines, but these systems often remain accessible only to expert programmers. In this demonstration, we present PalimpChat, a chat-based interface to Palimpzest that bridges this gap by letting users create and run sophisticated AI pipelines through natural language alone. By integrating Archytas, a ReAct-based reasoning agent, and Palimpzest’s suite of relational and LLM-based operators, PalimpChat provides a practical illustration of how a chat interface can make declarative AI frameworks truly accessible to non-experts. Our demo system is publicly available online. At SIGMOD’25, participants can explore three real-world scenarios–scientific discovery, legal discovery, and real estate search–or apply PalimpChat to their own datasets. In this paper, we focus on how PalimpChat, supported by the Palimpzest optimizer, simplifies complex AI workflows such as extracting and analyzing biomedical data.

arxiv情報

著者 Chunwei Liu,Gerardo Vitagliano,Brandon Rose,Matt Prinz,David Andrew Samson,Michael Cafarella
発行日 2025-02-05 17:06:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.IR | PalimpChat: Declarative and Interactive AI analytics はコメントを受け付けていません

Learning from Active Human Involvement through Proxy Value Propagation

要約

積極的な人間の関与から学ぶことで、人間の被験者は積極的に介入し、トレーニング中にAIエージェントに実証することができます。
人間からの相互作用と修正フィードバックは、学習プロセスに安全とAIの整合性をもたらします。
この作業では、ポリシーの最適化のためのプロキシバリュー伝播と呼ばれる新しい報酬のないアクティブな人間の関与方法を提案します。
Our key insight is that a proxy value function can be designed to express human intents, wherein state-action pairs in the human demonstration are labeled with high values, while those agents’ actions that are intervened receive low values.
Through the TD-learning framework, labeled values of demonstrated state-action pairs are further propagated to other unlabeled data generated from agents’ exploration.
したがって、プロキシ値関数は、人間の行動を忠実にエミュレートするポリシーを誘導します。
人間のループ実験は、私たちの方法の一般性と効率性を示しています。
With minimal modification to existing reinforcement learning algorithms, our method can learn to solve continuous and discrete control tasks with various human control devices, including the challenging task of driving in Grand Theft Auto V. Demo video and code are available at: https://
metadriverse.github.io/pvp

要約(オリジナル)

Learning from active human involvement enables the human subject to actively intervene and demonstrate to the AI agent during training. The interaction and corrective feedback from human brings safety and AI alignment to the learning process. In this work, we propose a new reward-free active human involvement method called Proxy Value Propagation for policy optimization. Our key insight is that a proxy value function can be designed to express human intents, wherein state-action pairs in the human demonstration are labeled with high values, while those agents’ actions that are intervened receive low values. Through the TD-learning framework, labeled values of demonstrated state-action pairs are further propagated to other unlabeled data generated from agents’ exploration. The proxy value function thus induces a policy that faithfully emulates human behaviors. Human-in-the-loop experiments show the generality and efficiency of our method. With minimal modification to existing reinforcement learning algorithms, our method can learn to solve continuous and discrete control tasks with various human control devices, including the challenging task of driving in Grand Theft Auto V. Demo video and code are available at: https://metadriverse.github.io/pvp

arxiv情報

著者 Zhenghao Peng,Wenjie Mo,Chenda Duan,Quanyi Li,Bolei Zhou
発行日 2025-02-05 17:07:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Learning from Active Human Involvement through Proxy Value Propagation はコメントを受け付けていません

Agent-OM: Leveraging LLM Agents for Ontology Matching

要約

オントロジーマッチング(OM)は、異なるオントロジー間のセマンティック相互運用性を可能にし、関連するエンティティを調整することにより概念的な不均一性を解決します。
OMシステムには現在、従来の知識ベースの専門家システムと新しい機械学習ベースの予測システムの2つの一般的な設計パラダイムがあります。
大規模な言語モデル(LLMS)とLLMエージェントはデータエンジニアリングに革命をもたらし、多くのドメインで創造的に適用されていますが、OMの可能性は未脱子のままです。
この研究では、OMシステム用の新しいエージェント駆動のLLMベースの設計パラダイムを紹介します。
OMのLLMエージェントを活用する際のいくつかの具体的な課題を考慮して、Generic Framework、すなわちAgent-OM(オントロジーマッチングのエージェント)を提案します。
私たちのフレームワークは、概念実証システムに実装されています。
3つのオントロジーアラインメント評価イニシアチブ(OAEI)の評価は、最新のOMシステムを追跡しています。これは、システムがシンプルなOMタスクで長年のベストパフォーマンスに非常に近い結果を達成できることを示しており、複雑なパフォーマンスを大幅に改善し、
少数のショットOMタスク。

要約(オリジナル)

Ontology matching (OM) enables semantic interoperability between different ontologies and resolves their conceptual heterogeneity by aligning related entities. OM systems currently have two prevailing design paradigms: conventional knowledge-based expert systems and newer machine learning-based predictive systems. While large language models (LLMs) and LLM agents have revolutionised data engineering and have been applied creatively in many domains, their potential for OM remains underexplored. This study introduces a novel agent-powered LLM-based design paradigm for OM systems. With consideration of several specific challenges in leveraging LLM agents for OM, we propose a generic framework, namely Agent-OM (Agent for Ontology Matching), consisting of two Siamese agents for retrieval and matching, with a set of OM tools. Our framework is implemented in a proof-of-concept system. Evaluations of three Ontology Alignment Evaluation Initiative (OAEI) tracks over state-of-the-art OM systems show that our system can achieve results very close to the long-standing best performance on simple OM tasks and can significantly improve the performance on complex and few-shot OM tasks.

arxiv情報

著者 Zhangcheng Qiang,Weiqing Wang,Kerry Taylor
発行日 2025-02-05 17:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Agent-OM: Leveraging LLM Agents for Ontology Matching はコメントを受け付けていません

Shift of Pairwise Similarities for Data Clustering

要約

いくつかのクラスタリング方法(例:正規化されたカットと比率)は、よりバランスの取れたパーティション化を生成するために、最小カットコスト関数をクラスター依存係数(クラスターのサイズまたは程度)で分割します。
代わりに、元のコスト関数にそのような正則化を追加することを調査します。
まず、正規化項がクラスターの2乗サイズの合計である場合を検討し、次にペアワイズの類似性の適応的な正則化に一般化します。
これは、それらの一部をネガティブにする可能性のあるペアワイズの類似性を(適応的に)変化させることにつながります。
次に、この方法と相関クラスタリングへの接続を調査し、新しいクラスタリング問題を解決するために、迅速な理論的収束速度で効率的なローカル検索最適化アルゴリズムを提案します。
以下では、いくつかの一般的なクラスタリング方法でのペアワイズの類似性のシフトを調査し、最後に、さまざまなデータセットでの広範な実験により、方法の優れたパフォーマンスを実証します。

要約(オリジナル)

Several clustering methods (e.g., Normalized Cut and Ratio Cut) divide the Min Cut cost function by a cluster dependent factor (e.g., the size or the degree of the clusters), in order to yield a more balanced partitioning. We, instead, investigate adding such regularizations to the original cost function. We first consider the case where the regularization term is the sum of the squared size of the clusters, and then generalize it to adaptive regularization of the pairwise similarities. This leads to shifting (adaptively) the pairwise similarities which might make some of them negative. We then study the connection of this method to Correlation Clustering and then propose an efficient local search optimization algorithm with fast theoretical convergence rate to solve the new clustering problem. In the following, we investigate the shift of pairwise similarities on some common clustering methods, and finally, we demonstrate the superior performance of the method by extensive experiments on different datasets.

arxiv情報

著者 Morteza Haghir Chehreghani
発行日 2025-02-05 17:12:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Shift of Pairwise Similarities for Data Clustering はコメントを受け付けていません

Transformers and Their Roles as Time Series Foundation Models

要約

時系列の基礎モデルとしての変圧器の包括的な分析を提供し、その近似と一般化能力に焦点を当てています。
まず、勾配降下を介して入力単変量時系列に自己回帰モデルに適合する変圧器が存在することを実証します。
次に、任意の数の共変量を処理できる多変量時系列基礎モデルであるMoiraiを分析します。
私たちは、任意の数の共変量を自動的に自動再生モデルに適合させることができることを証明し、その設計と経験的成功に関する洞察を提供します。
一般化のために、データがDobrushinの状態を満たしている場合、事前削除の境界を確立します。
実験は、時系列の基礎モデルとしての変圧器の有効性を強調し、理論的な発見をサポートしています。

要約(オリジナル)

We give a comprehensive analysis of transformers as time series foundation models, focusing on their approximation and generalization capabilities. First, we demonstrate that there exist transformers that fit an autoregressive model on input univariate time series via gradient descent. We then analyze MOIRAI, a multivariate time series foundation model capable of handling an arbitrary number of covariates. We prove that it is capable of automatically fitting autoregressive models with an arbitrary number of covariates, offering insights into its design and empirical success. For generalization, we establish bounds for pretraining when the data satisfies Dobrushin’s condition. Experiments support our theoretical findings, highlighting the efficacy of transformers as time series foundation models.

arxiv情報

著者 Dennis Wu,Yihan He,Yuan Cao,Jianqing Fan,Han Liu
発行日 2025-02-05 17:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Transformers and Their Roles as Time Series Foundation Models はコメントを受け付けていません

LIMO: Less is More for Reasoning

要約

大規模な言語モデルで複雑な推論がどのように現れるかについての理解に挑戦する根本的な発見を提示します。
従来の知恵は、洗練された推論タスクには広範なトレーニングデータ(100,000を超える例)が必要であることを示唆していますが、驚くほど少数の例で複雑な数学的推論能力を効果的に誘発できることを示しています。
包括的な実験を通じて、提案されたモデルリムジンは、数学的推論における前例のないパフォーマンスを示しています。
わずか817のキュレーショントレーニングサンプルで、LimoはAIMEで57.1%の精度と数学で94.8%を達成し、以前のSFTベースのモデル「6.5%と59.2%からそれぞれ改善し、以前のアプローチで必要なトレーニングデータの1%のみを使用しています。
Limoは、分散型の並外れた一般化を実証し、10の多様なベンチマークで40.5%の絶対的な改善を達成し、100倍のデータで訓練されたモデルを上回るモデルを上回り、SFTが一般化ではなく暗記につながるという概念に挑戦します。
これらの結果に基づいて、私たちは、それほど少ない推論仮説(リムジン仮説)を提案します。ドメインの知識がトレーニング前に包括的にエンコードされている基礎モデルでは、認知プロセスの最小限であるが正確にオーケストレーションされた実証によって出現する可能性があります。
この仮説は、複雑な推論の誘発しきい値が2つの重要な要因によって決定されると仮定しています。(1)トレーニング前のモデルのエンコードされた知識基礎の完全性、および(2)トレーニング後の例が「認知テンプレート」としての有効性を「
モデルに、知識ベースを利用して複雑な推論タスクを解決する方法を示します。
データ効率の高い推論における再現性と将来の研究を促進するために、https://github.com/gair-nlp/limoで包括的なオープンソーススイートとしてLimoをリリースします。

要約(オリジナル)

We present a fundamental discovery that challenges our understanding of how complex reasoning emerges in large language models. While conventional wisdom suggests that sophisticated reasoning tasks demand extensive training data (>100,000 examples), we demonstrate that complex mathematical reasoning abilities can be effectively elicited with surprisingly few examples. Through comprehensive experiments, our proposed model LIMO demonstrates unprecedented performance in mathematical reasoning. With merely 817 curated training samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from previous SFT-based models’ 6.5% and 59.2% respectively, while only using 1% of the training data required by previous approaches. LIMO demonstrates exceptional out-of-distribution generalization, achieving 40.5% absolute improvement across 10 diverse benchmarks, outperforming models trained on 100x more data, challenging the notion that SFT leads to memorization rather than generalization. Based on these results, we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes. This hypothesis posits that the elicitation threshold for complex reasoning is determined by two key factors: (1) the completeness of the model’s encoded knowledge foundation during pre-training, and (2) the effectiveness of post-training examples as ‘cognitive templates’ that show the model how to utilize its knowledge base to solve complex reasoning tasks. To facilitate reproducibility and future research in data-efficient reasoning, we release LIMO as a comprehensive open-source suite at https://github.com/GAIR-NLP/LIMO.

arxiv情報

著者 Yixin Ye,Zhen Huang,Yang Xiao,Ethan Chern,Shijie Xia,Pengfei Liu
発行日 2025-02-05 17:23:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LIMO: Less is More for Reasoning はコメントを受け付けていません

CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing

要約

大規模な言語モデルは、さまざまなタスクで顕著な成功を収めていますが、推論中に高い計算コストに悩まされており、リソースに制約のあるアプリケーションでの展開が制限されています。
この問題に対処するために、新しいCiter(\ textbf {c} ollaborative \ textbf {i} neferenceを提案します。
トークンレベルのルーティング戦略を通じて、小言語モデル(SLMSおよびLLMS)の間で。
具体的には、Citerは効率のために非批判的なトークンをSLMにルーティングし、一般化品質のために重要なトークンをLLMにルーティングします。
ルータートレーニングをポリシーの最適化として策定します。ここでは、ルーターが予測の質と生成の推論コストの両方に基づいて報酬を受け取ります。
これにより、ルーターはトークンレベルのルーティングスコアを予測することを学び、現在のトークンとその決定の将来の影響の両方に基づいてルーティングの決定を下すことができます。
報酬評価プロセスをさらに加速するために、報酬の推定のコストを大幅に削減し、アプローチの実用性を改善するショートカットを導入します。
5つのベンチマークデータセットでの広範な実験は、Cititerが高品質の世代を維持しながら推論コストを削減し、リアルタイムおよびリソースに制約のあるアプリケーションに有望なソリューションを提供することを示しています。

要約(オリジナル)

Large language models have achieved remarkable success in various tasks but suffer from high computational costs during inference, limiting their deployment in resource-constrained applications. To address this issue, we propose a novel CITER (\textbf{C}ollaborative \textbf{I}nference with \textbf{T}oken-l\textbf{E}vel \textbf{R}outing) framework that enables efficient collaboration between small and large language models (SLMs & LLMs) through a token-level routing strategy. Specifically, CITER routes non-critical tokens to an SLM for efficiency and routes critical tokens to an LLM for generalization quality. We formulate router training as a policy optimization, where the router receives rewards based on both the quality of predictions and the inference costs of generation. This allows the router to learn to predict token-level routing scores and make routing decisions based on both the current token and the future impact of its decisions. To further accelerate the reward evaluation process, we introduce a shortcut which significantly reduces the costs of the reward estimation and improving the practicality of our approach. Extensive experiments on five benchmark datasets demonstrate that CITER reduces the inference costs while preserving high-quality generation, offering a promising solution for real-time and resource-constrained applications.

arxiv情報

著者 Wenhao Zheng,Yixiao Chen,Weitong Zhang,Souvik Kundu,Yun Li,Zhengzhong Liu,Eric P. Xing,Hongyi Wang,Huaxiu Yao
発行日 2025-02-05 17:26:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PF | CITER: Collaborative Inference for Efficient Large Language Model Decoding with Token-Level Routing はコメントを受け付けていません