Distinguishing Cause from Effect with Causal Velocity Models

要約

制限されたモデルクラスで適合度を調べることにより、因果方向を推測するために、しばしば二変量構造因果モデル(SCM)が使用されます。
この論文では、原因変数を動的システムの時間と見なすことにより、因果速度の観点からの二変量SCMのパラメーター化について説明します。
速度は、観測が初期条件を指定する初期値の問題の解を介して反事実的な曲線を暗黙的に定義します。
メジャートランスポートからのツールを使用して、SCMSとその因果速度を介して生成された分布のスコア関数との間に一意の対応を取得します。
これに基づいて、スコア関数に対して速度を直接回帰する目的関数を導き出します。後者は、観測データから非パラメトリックに推定できます。
これを使用して、添加剤や位置スケールノイズなどの既知のモデルクラスを超えて拡張され、ノイズ分布に関する仮定を必要としない二変量因果発見の方法を開発します。
スコアが十分に推定される場合、目標はモデルの非識別性と誤解を検出するのにも役立ちます。
多くの既存の方法が失敗するシミュレーションとベンチマーク実験で肯定的な結果を提示し、アブレーション研究を実行して、正確なスコア推定に対する方法の感度を調べます。

要約(オリジナル)

Bivariate structural causal models (SCM) are often used to infer causal direction by examining their goodness-of-fit under restricted model classes. In this paper, we describe a parametrization of bivariate SCMs in terms of a causal velocity by viewing the cause variable as time in a dynamical system. The velocity implicitly defines counterfactual curves via the solution of initial value problems where the observation specifies the initial condition. Using tools from measure transport, we obtain a unique correspondence between SCMs and the score function of the generated distribution via its causal velocity. Based on this, we derive an objective function that directly regresses the velocity against the score function, the latter of which can be estimated non-parametrically from observational data. We use this to develop a method for bivariate causal discovery that extends beyond known model classes such as additive or location scale noise, and that requires no assumptions on the noise distributions. When the score is estimated well, the objective is also useful for detecting model non-identifiability and misspecification. We present positive results in simulation and benchmark experiments where many existing methods fail, and perform ablation studies to examine the method’s sensitivity to accurate score estimation.

arxiv情報

著者 Johnny Xi,Hugh Dance,Peter Orbanz,Benjamin Bloem-Reddy
発行日 2025-02-07 17:50:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Distinguishing Cause from Effect with Causal Velocity Models はコメントを受け付けていません

Data-Parallel Neural Network Training via Nonlinearly Preconditioned Trust-Region Method

要約

モデルとデータセットのサイズの継続的な成長により、並列トレーニング方法は、機械学習(ML)にますます関連しています。
ディープニューラルネットワーク(DNNS)をトレーニングするために、追加の前提条件化された信託地域戦略(APTS)のバリアントを提案します。
提案されているAPTSメソッドは、データ並列アプローチを利用して、非線形最適化戦略で採用されている非線形前委員会を構築します。
確率勾配降下(SGD)および適応モーメント推定(ADAM)の一般的な雇用とは対照的に、どちらも勾配降下(GD)アルゴリズムのバリアントであるADAM)は、各反復のステップサイズを暗黙的に調整し、それによって必要性を削除します。
高価なハイパーパラメーターチューニング。
MNISTおよびCIFAR-10データセットを使用して、提案されたAPTSバリアントのパフォーマンスを実証します。
得られた結果は、ここで提案されているAPTSバリアントがSGDとADAMに匹敵する検証精度を達成し、並行トレーニングを可能にし、高価なハイパーパラメーターチューニングの必要性を排除することを示しています。

要約(オリジナル)

Parallel training methods are increasingly relevant in machine learning (ML) due to the continuing growth in model and dataset sizes. We propose a variant of the Additively Preconditioned Trust-Region Strategy (APTS) for training deep neural networks (DNNs). The proposed APTS method utilizes a data-parallel approach to construct a nonlinear preconditioner employed in the nonlinear optimization strategy. In contrast to the common employment of Stochastic Gradient Descent (SGD) and Adaptive Moment Estimation (Adam), which are both variants of gradient descent (GD) algorithms, the APTS method implicitly adjusts the step sizes in each iteration, thereby removing the need for costly hyperparameter tuning. We demonstrate the performance of the proposed APTS variant using the MNIST and CIFAR-10 datasets. The results obtained indicate that the APTS variant proposed here achieves comparable validation accuracy to SGD and Adam, all while allowing for parallel training and obviating the need for expensive hyperparameter tuning.

arxiv情報

著者 Samuel A. Cruz Alegría,Ken Trotti,Alena Kopaničáková,Rolf Krause
発行日 2025-02-07 18:11:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA | Data-Parallel Neural Network Training via Nonlinearly Preconditioned Trust-Region Method はコメントを受け付けていません

Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound

要約

オーディオ美学の定量化は、主にその主観的な性質のために、人間の認識と文化的文脈の影響を受けているため、オーディオ処理における複雑な課題のままです。
従来の方法は、多くの場合、人間のリスナーに評価に依存し、不一致と高いリソースの要求につながります。
このペーパーでは、人間の介入なしにオーディオの美学を予測できる自動システムの必要性の高まりについて説明します。
このようなシステムは、特にこれらのモデルがより洗練されるにつれて、データフィルタリング、擬似ラベルの大規模データセット、生成オーディオモデルの評価などのアプリケーションにとって重要です。
この作業では、人間のリスニングの視点を4つの異なる軸に分解する新しいアノテーションガイドラインを提案することにより、オーディオ美的評価への新しいアプローチを紹介します。
オーディオ品質のより微妙な評価を提供する、項目ごとの予測モデルを開発およびトレーニングします。
私たちのモデルは、人間の平均意見スコア(MO)および既存の方法に対して評価され、同等のパフォーマンスまたは優れたパフォーマンスを実証します。
この研究は、オーディオ美学の分野を進歩させるだけでなく、オープンソースモデルとデータセットを提供して、将来の作業とベンチマークを促進します。
https://github.com/facebookresearch/audiobox-aestheticsでコードと事前に訓練されたモデルをリリースします

要約(オリジナル)

The quantification of audio aesthetics remains a complex challenge in audio processing, primarily due to its subjective nature, which is influenced by human perception and cultural context. Traditional methods often depend on human listeners for evaluation, leading to inconsistencies and high resource demands. This paper addresses the growing need for automated systems capable of predicting audio aesthetics without human intervention. Such systems are crucial for applications like data filtering, pseudo-labeling large datasets, and evaluating generative audio models, especially as these models become more sophisticated. In this work, we introduce a novel approach to audio aesthetic evaluation by proposing new annotation guidelines that decompose human listening perspectives into four distinct axes. We develop and train no-reference, per-item prediction models that offer a more nuanced assessment of audio quality. Our models are evaluated against human mean opinion scores (MOS) and existing methods, demonstrating comparable or superior performance. This research not only advances the field of audio aesthetics but also provides open-source models and datasets to facilitate future work and benchmarking. We release our code and pre-trained model at: https://github.com/facebookresearch/audiobox-aesthetics

arxiv情報

著者 Andros Tjandra,Yi-Chiao Wu,Baishan Guo,John Hoffman,Brian Ellis,Apoorv Vyas,Bowen Shi,Sanyuan Chen,Matt Le,Nick Zacharov,Carleigh Wood,Ann Lee,Wei-Ning Hsu
発行日 2025-02-07 18:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS | Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound はコメントを受け付けていません

From Restless to Contextual: A Thresholding Bandit Approach to Improve Finite-horizon Performance

要約

オンラインの落ち着きのない盗賊は、各エージェントをマルコフ決定プロセス(MDP)として表す州の移行と予算の制約を組み込むことにより、古典的な文脈的盗賊を拡張します。
このフレームワークは、有限ホリゾンの戦略的リソース割り当てにとって重要であり、長期的な利益のために限られた費用のかかる介入を最適化します。
ただし、各エージェントの基礎となるMDPを学習することは、有限ホリゾンの設定で大きな課題をもたらします。
学習を促進するために、問題をスケーラブルな予算のしきい値のコンテキストバンディット問題として再定式化し、州の移行を報酬設計に慎重に統合し、しきい値を超えるアクションメリットを持つエージェントの識別に焦点を当てます。
単純な2つの状態の設定でOracle貪欲なソリューションの最適性を確立し、不均一なエージェントを伴うオンラインマルチステート設定で最適な一定の後悔と、介入なしの結果の知識を実現するアルゴリズムを提案します。
アルゴリズムは、既存のオンラインの落ち着きのない盗賊方法を上回り、有限ホリゾンのパフォーマンスの大幅な改善を提供することを数値的に示しています。

要約(オリジナル)

Online restless bandits extend classic contextual bandits by incorporating state transitions and budget constraints, representing each agent as a Markov Decision Process (MDP). This framework is crucial for finite-horizon strategic resource allocation, optimizing limited costly interventions for long-term benefits. However, learning the underlying MDP for each agent poses a major challenge in finite-horizon settings. To facilitate learning, we reformulate the problem as a scalable budgeted thresholding contextual bandit problem, carefully integrating the state transitions into the reward design and focusing on identifying agents with action benefits exceeding a threshold. We establish the optimality of an oracle greedy solution in a simple two-state setting, and propose an algorithm that achieves minimax optimal constant regret in the online multi-state setting with heterogeneous agents and knowledge of outcomes under no intervention. We numerically show that our algorithm outperforms existing online restless bandit methods, offering significant improvements in finite-horizon performance.

arxiv情報

著者 Jiamin Xu,Ivan Nazarov,Aditya Rastogi,África Periáñez,Kyra Gan
発行日 2025-02-07 18:23:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | From Restless to Contextual: A Thresholding Bandit Approach to Improve Finite-horizon Performance はコメントを受け付けていません

TLXML: Task-Level Explanation of Meta-Learning via Influence Functions

要約

メタラーニングを介した適応スキームは、実際のアプリケーションのデータ不足または分布シフトの問題を解決するための要素と見なされますが、ユーザー環境でモデルの不適切な更新の新しいリスクももたらし、これにより増加します。
説明可能性の需要。
さまざまなタイプのXAIメソッドの中で、メタラーニングの過去の経験に基づいた説明方法を確立するには、双子のトレーニング構造のために特別な考慮が必要です。
この作業では、適応と推論に対するトレーニングタスクの感受性を測定するメタ学習を説明するための影響機能を提案します。
また、Gauss-Newton Matrixを使用するヘシアンの近似は、計算障壁がメタラーニングに特有の障壁を解決すると主張します。
MAMLとプロトタイプネットワークを使用した画像分類タスクを使用して、タスクの区別とタスク分布の区別に関する実験を通じて、メソッドの妥当性を実証します。

要約(オリジナル)

The scheme of adaptation via meta-learning is seen as an ingredient for solving the problem of data shortage or distribution shift in real-world applications, but it also brings the new risk of inappropriate updates of the model in the user environment, which increases the demand for explainability. Among the various types of XAI methods, establishing a method of explanation based on past experience in meta-learning requires special consideration due to its bi-level structure of training, which has been left unexplored. In this work, we propose influence functions for explaining meta-learning that measure the sensitivities of training tasks to adaptation and inference. We also argue that the approximation of the Hessian using the Gauss-Newton matrix resolves computational barriers peculiar to meta-learning. We demonstrate the adequacy of the method through experiments on task distinction and task distribution distinction using image classification tasks with MAML and Prototypical Network.

arxiv情報

著者 Yoshihiro Mitsuka,Shadan Golestan,Zahin Sufiyan,Sheila Schoepp,Shotaro Miwa,Osmar R. Zaiane
発行日 2025-02-07 18:37:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | TLXML: Task-Level Explanation of Meta-Learning via Influence Functions はコメントを受け付けていません

Deep Dynamic Probabilistic Canonical Correlation Analysis

要約

このホワイトペーパーでは、ディープダイナミックの確率論的相関分析(D2PCCA)を紹介します。これは、非線形動的システムを分析するために深い学習を確率的モデリングと統合するモデルです。
標準相関分析(CCA)の確率的拡張に基づいて、D2PCCAは非線形潜在ダイナミクスをキャプチャし、KLアニーリングなどの強化をサポートし、収束を改善し、より柔軟な後部近似のためのフローを正常化します。
D2PCCAは自然に観測された複数の変数に拡張され、シーケンシャルデータセットに関する事前知識をエンコードし、システムのダイナミクスに関する確率的理解を提供するための多用途のツールになります。
実際の財務データセットでの実験的検証は、D2PCCAの有効性と潜在的なダイナミクスのキャプチャをキャプチャする際の拡張性を示しています。

要約(オリジナル)

This paper presents Deep Dynamic Probabilistic Canonical Correlation Analysis (D2PCCA), a model that integrates deep learning with probabilistic modeling to analyze nonlinear dynamical systems. Building on the probabilistic extensions of Canonical Correlation Analysis (CCA), D2PCCA captures nonlinear latent dynamics and supports enhancements such as KL annealing for improved convergence and normalizing flows for a more flexible posterior approximation. D2PCCA naturally extends to multiple observed variables, making it a versatile tool for encoding prior knowledge about sequential datasets and providing a probabilistic understanding of the system’s dynamics. Experimental validation on real financial datasets demonstrates the effectiveness of D2PCCA and its extensions in capturing latent dynamics.

arxiv情報

著者 Shiqin Tang,Shujian Yu,Yining Dong,S. Joe Qin
発行日 2025-02-07 18:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Deep Dynamic Probabilistic Canonical Correlation Analysis はコメントを受け付けていません

Efficient distributional regression trees learning algorithms for calibrated non-parametric probabilistic forecasts

要約

科学と工学の重要なアプリケーションのために信頼できるAIを開発するという視点には、自分の不確実性を推定できる機械学習技術が必要です。
回帰のコンテキストでは、条件付き平均を推定する代わりに、これは出力の予測間隔を生成することによって達成できます。
指定された入力機能$ x $。
これは、パラメトリックな仮定の下で行うことができますが、例えば
一般化された線形モデル、これらは通常強すぎ、ノンパラメトリックモデルは柔軟な代替品を提供します。
特に、スカラー出力の場合、$ x $の$ y $の条件付き累積分布関数のモデルを直接学習すると、より正確な確率的推定値、および加重インターバルスコア(WIS)などの適切なスコアリングルールの使用につながる可能性があります。
連続ランク付けされた確率スコア(CRPS)は、カバレッジとキャリブレーションの特性が向上します。
このペーパーでは、WISまたはCRPS損失関数の確率的回帰ツリーを学習するための新しいアルゴリズムを紹介します。
これらのアルゴリズムは、既知のデータ構造、つまりMin-Max Heaps、Weight-Balanced Binary Trees、Fenwick Treesの適切な使用により、計算上効率的になります。
数値実験を通じて、私たちの方法のパフォーマンスが代替アプローチと競合していることを実証します。
さらに、私たちの方法は、木の固有の解釈可能性と説明可能性の恩恵を受けます。
副産物として、コンフォーマル予測のコンテキストで木をどのように使用できるかを示し、グループ条件のカバレッジ保証を達成するのに特に適している理由を説明します。

要約(オリジナル)

The perspective of developing trustworthy AI for critical applications in science and engineering requires machine learning techniques that are capable of estimating their own uncertainty. In the context of regression, instead of estimating a conditional mean, this can be achieved by producing a predictive interval for the output, or to even learn a model of the conditional probability $p(y|x)$ of an output $y$ given input features $x$. While this can be done under parametric assumptions with, e.g. generalized linear model, these are typically too strong, and non-parametric models offer flexible alternatives. In particular, for scalar outputs, learning directly a model of the conditional cumulative distribution function of $y$ given $x$ can lead to more precise probabilistic estimates, and the use of proper scoring rules such as the weighted interval score (WIS) and the continuous ranked probability score (CRPS) lead to better coverage and calibration properties. This paper introduces novel algorithms for learning probabilistic regression trees for the WIS or CRPS loss functions. These algorithms are made computationally efficient thanks to an appropriate use of known data structures – namely min-max heaps, weight-balanced binary trees and Fenwick trees. Through numerical experiments, we demonstrate that the performance of our methods is competitive with alternative approaches. Additionally, our methods benefit from the inherent interpretability and explainability of trees. As a by-product, we show how our trees can be used in the context of conformal prediction and explain why they are particularly well-suited for achieving group-conditional coverage guarantees.

arxiv情報

著者 Duchemin Quentin,Obozinski Guillaume
発行日 2025-02-07 18:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG | Efficient distributional regression trees learning algorithms for calibrated non-parametric probabilistic forecasts はコメントを受け付けていません

In-context denoising with one-layer transformers: connections between attention and associative memory retrieval

要約

現代のホップフィールドネットワークとしても知られる、注意ベースのアーキテクチャと密集した連想メモリ(DAM)ネットワークとの関係を改良するタスクであるコンテキスト内除去を紹介します。
ベイジアンフレームワークを使用して、理論的および経験的に、特定の制限された除去の問題は、単一層トランスによっても最適に解決できることを示します。
訓練された注意層が、コンテキストトークンが連想記憶として機能し、クエリトークンが初期状態として機能するコンテキストを意識するダムエネルギーの風景で単一の勾配降下更新を実行することにより、各除去プロンプトを処理することを実証します。
このワンステップアップデートは、コンテキストトークンまたはスプリアスローカル最小のいずれかの正確な検索よりも優れたソリューションを生成し、標準の検索パラダイムを超えて拡張されるダムネットワークの具体的な例を提供します。
全体として、この作業は、Ramsauer et al。によって最初に特定された連想記憶と注意メカニズムの間のリンクを固め、コンテキスト学習の研究における連想記憶モデルの関連性を示しています。

要約(オリジナル)

We introduce in-context denoising, a task that refines the connection between attention-based architectures and dense associative memory (DAM) networks, also known as modern Hopfield networks. Using a Bayesian framework, we show theoretically and empirically that certain restricted denoising problems can be solved optimally even by a single-layer transformer. We demonstrate that a trained attention layer processes each denoising prompt by performing a single gradient descent update on a context-aware DAM energy landscape, where context tokens serve as associative memories and the query token acts as an initial state. This one-step update yields better solutions than exact retrieval of either a context token or a spurious local minimum, providing a concrete example of DAM networks extending beyond the standard retrieval paradigm. Overall, this work solidifies the link between associative memory and attention mechanisms first identified by Ramsauer et al., and demonstrates the relevance of associative memory models in the study of in-context learning.

arxiv情報

著者 Matthew Smart,Alberto Bietti,Anirvan M. Sengupta
発行日 2025-02-07 18:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG | In-context denoising with one-layer transformers: connections between attention and associative memory retrieval はコメントを受け付けていません

Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping

要約

大規模な言語モデルの推論は、メモリ集約的で時間がかかる両方であり、多くの場合、効率的にスケーリングするために分散アルゴリズムが必要です。
さまざまなモデルの並列性戦略が、複数のデバイスにわたってパーティション計算に対するマルチGPUトレーニングと推論に使用され、メモリ負荷と計算時間が短縮されます。
ただし、モデルの並列性を使用すると、GPU間の情報の通信が必要です。これは、主要なボトルネックであり、デバイスの数をスケーリングすることで得られるゲインを制限します。
はしごResidualを紹介します。これは、通信の遅延を効果的に隠す簡単なオーバーラップを可能にするすべての残差ベースのモデルに適用される単純なアーキテクチャ変更です。
私たちの洞察は、システムの最適化に加えて、モデルアーキテクチャを再設計して、通信を計算から切り離すこともできるということです。
はしごの残留は、従来の並列性パターンでのコミュニケーションコンポーションデカップリングを可能にすることができますが、このペーパーのテンソル並列性に焦点を当てます。これは、その重いコミュニケーションによって特にボトルネックされています。
70Bパラメーターを備えたトランスモデルの場合、すべてのレイヤーにはしごの残差を適用すると、8つのデバイスを超えるTPシャードを使用して、推測時間に29%のエンドツーエンドのウォールクロック速度を達成できます。
結果の変圧器モデルをはしごトランスと呼びます。
1Bおよび3Bのラダートランスをゼロから訓練し、同等のパフォーマンスを標準の高密度変圧器ベースラインに観察します。
また、3Bトークンの再トレーニングのみで最小限の精度分解で、Llama-3.18Bモデルの一部をはしごの残留アーキテクチャに変換することが可能であることを示しています。
実験の複製を容易にするために、トレーニングと推論のためのコードをリリースします。

要約(オリジナル)

Large language model inference is both memory-intensive and time-consuming, often requiring distributed algorithms to efficiently scale. Various model parallelism strategies are used in multi-gpu training and inference to partition computation across multiple devices, reducing memory load and computation time. However, using model parallelism necessitates communication of information between GPUs, which has been a major bottleneck and limits the gains obtained by scaling up the number of devices. We introduce Ladder Residual, a simple architectural modification applicable to all residual-based models that enables straightforward overlapping that effectively hides the latency of communication. Our insight is that in addition to systems optimization, one can also redesign the model architecture to decouple communication from computation. While Ladder Residual can allow communication-computation decoupling in conventional parallelism patterns, we focus on Tensor Parallelism in this paper, which is particularly bottlenecked by its heavy communication. For a Transformer model with 70B parameters, applying Ladder Residual to all its layers can achieve 29% end-to-end wall clock speed up at inference time with TP sharding over 8 devices. We refer the resulting Transformer model as the Ladder Transformer. We train a 1B and 3B Ladder Transformer from scratch and observe comparable performance to a standard dense transformer baseline. We also show that it is possible to convert parts of the Llama-3.1 8B model to our Ladder Residual architecture with minimal accuracy degradation by only retraining for 3B tokens. We release our code for training and inference for easier replication of experiments.

arxiv情報

著者 Muru Zhang,Mayank Mishra,Zhongzhu Zhou,William Brandon,Jue Wang,Yoon Kim,Jonathan Ragan-Kelley,Shuaiwen Leon Song,Ben Athiwaratkun,Tri Dao
発行日 2025-02-07 08:23:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG | Ladder-residual: parallelism-aware architecture for accelerating large model inference with communication overlapping はコメントを受け付けていません

Holistically Guided Monte Carlo Tree Search for Intricate Information Seeking

要約

膨大なデジタル情報の時代において、利用可能な情報の膨大な量と不均一性は、複雑な情報探索の重要な課題を提示します。
ユーザーは、広大でさまざまなデータソースをナビゲートすることを伴うMultiStep Web検索タスクに頻繁に直面しています。
この複雑さには、すべてのステップが包括的で正確で、関連性のあるままです。
ただし、従来の検索方法は、局所的な精度の必要性と全体的な理解に必要なより広範なコンテキストのバランスをとるのに苦労しており、複雑なクエリの重要な側面を露出していないままにします。
このホワイトペーパーでは、LLMベースの検索アシスタントを紹介します。これは、総合的にガイド付きモンテカルロツリー検索(HG-MCTS)を備えた新しい情報を求めるパラダイムを採用しています。
知識メモリを使用したプログレッシブ情報収集プロセスとしてタスクを再定式化し、MCTのマルチパーセプティックな報酬モデリングで適応的なチェックリストを統合します。
Adaptive Checklistは、複雑なユーザークエリの包括的なカバレッジに向けてMCTプロセスをガイドするための明示的なサブゴールを提供します。
同時に、当社の多面的な報酬モデリングは、探索と検索の両方の報酬の両方を提供し、完了したサブゴールと残りのサブゴールを追跡する進捗フィードバックを提供し、ツリー検索が進むにつれてチェックリストを改良します。
ローカライズされたツリーの拡張とグローバルガイダンスのバランスをとることにより、HG-MCTSは検索パスでの冗長性を減らし、複雑なクエリのすべての重要な側面が適切に対処されるようにします。
現実世界の複雑な情報探索タスクに関する広範な実験は、HG-MCTSが徹底的な知識コレクションを取得し、既存のベースラインと比較してより正確な最終応答を提供することを示しています。

要約(オリジナル)

In the era of vast digital information, the sheer volume and heterogeneity of available information present significant challenges for intricate information seeking. Users frequently face multistep web search tasks that involve navigating vast and varied data sources. This complexity demands every step remains comprehensive, accurate, and relevant. However, traditional search methods often struggle to balance the need for localized precision with the broader context required for holistic understanding, leaving critical facets of intricate queries underexplored. In this paper, we introduce an LLM-based search assistant that adopts a new information seeking paradigm with holistically guided Monte Carlo tree search (HG-MCTS). We reformulate the task as a progressive information collection process with a knowledge memory and unite an adaptive checklist with multi-perspective reward modeling in MCTS. The adaptive checklist provides explicit sub-goals to guide the MCTS process toward comprehensive coverage of complex user queries. Simultaneously, our multi-perspective reward modeling offers both exploration and retrieval rewards, along with progress feedback that tracks completed and remaining sub-goals, refining the checklist as the tree search progresses. By striking a balance between localized tree expansion and global guidance, HG-MCTS reduces redundancy in search paths and ensures that all crucial aspects of an intricate query are properly addressed. Extensive experiments on real-world intricate information seeking tasks demonstrate that HG-MCTS acquires thorough knowledge collections and delivers more accurate final responses compared with existing baselines.

arxiv情報

著者 Ruiyang Ren,Yuhao Wang,Junyi Li,Jinhao Jiang,Wayne Xin Zhao,Wenjie Wang,Tat-Seng Chua
発行日 2025-02-07 08:36:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Holistically Guided Monte Carlo Tree Search for Intricate Information Seeking はコメントを受け付けていません