Interpretable Contrastive Monte Carlo Tree Search Reasoning

要約

私たちは SC-MCTS* を提案します。これは、大規模言語モデル (LLM) 用の新しいモンテカルロ ツリー検索 (MCTS) 推論アルゴリズムであり、推論の精度と速度の両方を大幅に向上させます。
私たちの動機は次のとおりです。 1. 以前の MCTS LLM 推論作業では、最大の欠点である CoT に比べて速度が遅いという見落とされがちでした。
2. 以前の研究では主に、推論の解釈可能性の観点からそのコンポーネントの限定的な定量分析またはアブレーション研究を伴う、さまざまなタスクに関する LLM 推論のためのツールとして MCTS が使用されていました。
3. 報酬モデルは MCTS の最も重要なコンポーネントですが、これまでの研究では MCTS の報酬モデルの詳細な研究や改善がほとんど行われていませんでした。
したがって、MCTS のコンポーネントについて広範なアブレーション研究と定量分析を実施し、LLM の MCTS 推論パフォーマンスに対する各コンポーネントの影響を明らかにしました。
これに基づいて、(i) 対照的デコーディングの原理に基づいて解釈性の高い報酬モデルを設計し、(ii) 投機的デコーディングを使用してノードあたり平均 51.9% の速度向上を達成しました。
さらに、(iii) 以前の研究で使用されていた UCT ノード選択戦略とバックプロパゲーションを改善し、パフォーマンスが大幅に向上しました。
Llama-3.1-70B と SC-MCTS* を使用した Blocksworld マルチステップ推論データセットでは、o1-mini のパフォーマンスを平均 17.4% 上回りました。
コードは \url{https://github.com/zitian-gao/SC-MCTS} で入手できます。

要約(オリジナル)

We propose SC-MCTS*: a novel Monte Carlo Tree Search (MCTS) reasoning algorithm for Large Language Models (LLMs), significantly improves both reasoning accuracy and speed. Our motivation comes from: 1. Previous MCTS LLM reasoning works often overlooked its biggest drawback–slower speed compared to CoT; 2. Previous research mainly used MCTS as a tool for LLM reasoning on various tasks with limited quantitative analysis or ablation studies of its components from reasoning interpretability perspective. 3. The reward model is the most crucial component in MCTS, however previous work has rarely conducted in-depth study or improvement of MCTS’s reward models. Thus, we conducted extensive ablation studies and quantitative analysis on components of MCTS, revealing the impact of each component on the MCTS reasoning performance of LLMs. Building on this, (i) we designed a highly interpretable reward model based on the principle of contrastive decoding and (ii) achieved an average speed improvement of 51.9% per node using speculative decoding. Additionally, (iii) we improved UCT node selection strategy and backpropagation used in previous works, resulting in significant performance improvement. We outperformed o1-mini by an average of 17.4% on the Blocksworld multi-step reasoning dataset using Llama-3.1-70B with SC-MCTS*. Our code is available at \url{https://github.com/zitian-gao/SC-MCTS}.

arxiv情報

著者 Zitian Gao,Boye Niu,Xuzheng He,Haotian Xu,Hongzhang Liu,Aiwei Liu,Xuming Hu,Lijie Wen
発行日 2024-10-11 16:28:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Interpretable Contrastive Monte Carlo Tree Search Reasoning はコメントを受け付けていません

Evaluating Federated Kolmogorov-Arnold Networks on Non-IID Data

要約

連邦コルモゴロフ・アーノルド・ネットワーク (F-KAN) はすでに提案されていますが、その評価は初期段階にあります。
KAN (活性化関数として B スプラインと放射基底関数を使用) と、非 IID パーティションを使用した MNIST 分類タスクでの 100 ラウンドの連合学習における同様の数のパラメーターを持つ多層パーセプトロン (MLP) との比較を示します。
クライアントは100名。
各モデルについて 15 回の試行を行った結果、MLP によって達成される最高の精度が、Spline-KAN によって半分の時間 (ラウンド単位) で達成され、計算時間はわずかに増加するだけであることがわかりました。

要約(オリジナル)

Federated Kolmogorov-Arnold Networks (F-KANs) have already been proposed, but their assessment is at an initial stage. We present a comparison between KANs (using B-splines and Radial Basis Functions as activation functions) and Multi- Layer Perceptrons (MLPs) with a similar number of parameters for 100 rounds of federated learning in the MNIST classification task using non-IID partitions with 100 clients. After 15 trials for each model, we show that the best accuracies achieved by MLPs can be achieved by Spline-KANs in half of the time (in rounds), with just a moderate increase in computing time.

arxiv情報

著者 Arthur Mendonça Sasse,Claudio Miceli de Farias
発行日 2024-10-11 16:30:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Evaluating Federated Kolmogorov-Arnold Networks on Non-IID Data はコメントを受け付けていません

Scaling Instructable Agents Across Many Simulated Worlds

要約

あらゆる 3D 環境で任意の言語命令に従うことができる具体化された AI システムを構築することは、一般的な AI を作成するための重要な課題です。
この目標を達成するには、複雑なタスクを達成するために、知覚と具体化された行動における基礎言語を学ぶ必要があります。
Scalable, Instructable, Multiworld Agent (SIMA) プロジェクトは、精選された研究環境やオープンエンドの商用ビデオ ゲームなど、さまざまな仮想 3D 環境にわたって自由形式の指示に従うようにエージェントをトレーニングすることで、この問題に取り組んでいます。
私たちの目標は、シミュレートされた 3D 環境で人間ができることはすべて達成できる、指示可能なエージェントを開発することです。
私たちのアプローチは、最小限の仮定を課しながら、言語主導の一般性に焦点を当てています。
当社のエージェントは、一般的な人間のようなインターフェイスを使用してリアルタイムで環境と対話します。入力は画像観察と言語指示であり、出力はキーボードとマウスの操作です。
この一般的なアプローチは困難ですが、これにより、視覚的に複雑で意味的に豊富な多くの環境にわたってエージェントが地上言語を使用できるようになり、同時に新しい環境でもエージェントを容易に実行できるようになります。
この文書では、私たちの動機と目標、これまでの初期の進歩、およびいくつかの多様な研究環境とさまざまな商用ビデオゲームに関する有望な予備結果について説明します。

要約(オリジナル)

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

arxiv情報

著者 SIMA Team,Maria Abi Raad,Arun Ahuja,Catarina Barros,Frederic Besse,Andrew Bolt,Adrian Bolton,Bethanie Brownfield,Gavin Buttimore,Max Cant,Sarah Chakera,Stephanie C. Y. Chan,Jeff Clune,Adrian Collister,Vikki Copeman,Alex Cullum,Ishita Dasgupta,Dario de Cesare,Julia Di Trapani,Yani Donchev,Emma Dunleavy,Martin Engelcke,Ryan Faulkner,Frankie Garcia,Charles Gbadamosi,Zhitao Gong,Lucy Gonzales,Kshitij Gupta,Karol Gregor,Arne Olav Hallingstad,Tim Harley,Sam Haves,Felix Hill,Ed Hirst,Drew A. Hudson,Jony Hudson,Steph Hughes-Fitt,Danilo J. Rezende,Mimi Jasarevic,Laura Kampis,Rosemary Ke,Thomas Keck,Junkyung Kim,Oscar Knagg,Kavya Kopparapu,Rory Lawton,Andrew Lampinen,Shane Legg,Alexander Lerchner,Marjorie Limont,Yulan Liu,Maria Loks-Thompson,Joseph Marino,Kathryn Martin Cussons,Loic Matthey,Siobhan Mcloughlin,Piermaria Mendolicchio,Hamza Merzic,Anna Mitenkova,Alexandre Moufarek,Valeria Oliveira,Yanko Oliveira,Hannah Openshaw,Renke Pan,Aneesh Pappu,Alex Platonov,Ollie Purkiss,David Reichert,John Reid,Pierre Harvey Richemond,Tyson Roberts,Giles Ruscoe,Jaume Sanchez Elias,Tasha Sandars,Daniel P. Sawyer,Tim Scholtes,Guy Simmons,Daniel Slater,Hubert Soyer,Heiko Strathmann,Peter Stys,Allison C. Tam,Denis Teplyashin,Tayfun Terzi,Davide Vercelli,Bojan Vujatovic,Marcus Wainwright,Jane X. Wang,Zhengdong Wang,Daan Wierstra,Duncan Williams,Nathaniel Wong,Sarah York,Nick Young
発行日 2024-10-11 16:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO | Scaling Instructable Agents Across Many Simulated Worlds はコメントを受け付けていません

Language Imbalance Driven Rewarding for Multilingual Self-improving

要約

大規模言語モデル (LLM) は、多数のタスクにわたって最先端のパフォーマンスを達成しました。
しかし、これらの進歩は主に英語や中国語などの「第一級」言語に恩恵をもたらし、他の多くの言語は過小評価されています。
この不均衡により、より広範なアプリケーションが制限される一方で、言語間の自然な優先順位が生成され、自己改善的な方法で LLM の多言語機能をブートストラップする機会が提供されます。
したがって、我々は $\textit{Language Imbalance Driven Rewarding}$ を提案します。LLM 内の主要な言語と非主要な言語間の固有の不均衡が報酬シグナルとして利用されます。
反復的な DPO トレーニングは、このアプローチが非支配的な言語での LLM パフォーマンスを向上させるだけでなく、支配的な言語の能力も向上させ、それによって反復的な報酬シグナルを生成することを示しています。
このアプローチを 2 回反復して Meta-Llama-3-8B-Instruct を微調整すると、指示に従うタスクと算術推論タスク全体で多言語パフォーマンスが継続的に向上しました。これは、X-AlpacaEval リーダーボードでの平均勝率が 7.46% 向上したことで証明されています。
MGSM ベンチマークでは 13.9% の精度です。
この作業は最初の調査として機能し、LLM の多言語自己改善への道を切り開きます。

要約(オリジナル)

Large Language Models (LLMs) have achieved state-of-the-art performance across numerous tasks. However, these advancements have predominantly benefited ‘first-class’ languages such as English and Chinese, leaving many other languages underrepresented. This imbalance, while limiting broader applications, generates a natural preference ranking between languages, offering an opportunity to bootstrap the multilingual capabilities of LLM in a self-improving manner. Thus, we propose $\textit{Language Imbalance Driven Rewarding}$, where the inherent imbalance between dominant and non-dominant languages within LLMs is leveraged as a reward signal. Iterative DPO training demonstrates that this approach not only enhances LLM performance in non-dominant languages but also improves the dominant language’s capacity, thereby yielding an iterative reward signal. Fine-tuning Meta-Llama-3-8B-Instruct over two iterations of this approach results in continuous improvements in multilingual performance across instruction-following and arithmetic reasoning tasks, evidenced by an average improvement of 7.46% win rate on the X-AlpacaEval leaderboard and 13.9% accuracy on the MGSM benchmark. This work serves as an initial exploration, paving the way for multilingual self-improvement of LLMs.

arxiv情報

著者 Wen Yang,Junhong Wu,Chen Wang,Chengqing Zong,Jiajun Zhang
発行日 2024-10-11 16:32:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language Imbalance Driven Rewarding for Multilingual Self-improving はコメントを受け付けていません

Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements

要約

大規模言語モデル (LLM) の安全性調整の現在のパラダイムは、万能のアプローチに従っています。つまり、モデルは、モデルプロバイダーによって安全でないとみなされたコンテンツとの対話を拒否します。
このアプローチは、文化や地域ごとに異なる社会規範に直面する柔軟性に欠けています。
さらに、ユーザーは多様な安全ニーズを持っている可能性があるため、静的安全基準を備えたモデルは制限が厳しすぎて役に立たず、再調整するにはコストがかかりすぎます。
私たちは、再トレーニングせずにモデルを多様な安全要件に適応させるように設計されたフレームワークである、Controllable Safety Alignment (CoSA) を提案します。
固定モデルを調整する代わりに、システム プロンプトの一部として提供される安全設定 (望ましい安全動作に関する自由形式の自然言語記述) に従うようにモデルを調整します。
モデルの安全性動作を調整するには、承認されたユーザーは推論時にそのような安全性構成を変更するだけで済みます。
これを可能にするために、多様な安全構成に簡単に適応できるように LLM を調整するためのデータ中心の方法である CoSAlign を提案します。
さらに、有用性と設定された安全性の両方を考慮した新しい制御性評価プロトコルを考案し、それらを CoSA スコアに要約し、多様な安全性要件と対応する評価プロンプトを備えた現実世界の LLM ユースケースで構成される人間が作成したベンチマークである CoSApien を構築します。

CoSAlign が、コンテキスト内アライメントを含む強力なベースラインに対する制御性の大幅な向上につながることを示します。
私たちのフレームワークは、LLM における多元的な人間の価値観のより適切な表現と適応を奨励し、それによって LLM の実用性を高めます。

要約(オリジナル)

The current paradigm for safety alignment of large language models (LLMs) follows a one-size-fits-all approach: the model refuses to interact with any content deemed unsafe by the model provider. This approach lacks flexibility in the face of varying social norms across cultures and regions. In addition, users may have diverse safety needs, making a model with static safety standards too restrictive to be useful, as well as too costly to be re-aligned. We propose Controllable Safety Alignment (CoSA), a framework designed to adapt models to diverse safety requirements without re-training. Instead of aligning a fixed model, we align models to follow safety configs — free-form natural language descriptions of the desired safety behaviors — that are provided as part of the system prompt. To adjust model safety behavior, authorized users only need to modify such safety configs at inference time. To enable that, we propose CoSAlign, a data-centric method for aligning LLMs to easily adapt to diverse safety configs. Furthermore, we devise a novel controllability evaluation protocol that considers both helpfulness and configured safety, summarizing them into CoSA-Score, and construct CoSApien, a human-authored benchmark that consists of real-world LLM use cases with diverse safety requirements and corresponding evaluation prompts. We show that CoSAlign leads to substantial gains of controllability over strong baselines including in-context alignment. Our framework encourages better representation and adaptation to pluralistic human values in LLMs, and thereby increasing their practicality.

arxiv情報

著者 Jingyu Zhang,Ahmed Elgohary,Ahmed Magooda,Daniel Khashabi,Benjamin Van Durme
発行日 2024-10-11 16:38:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements はコメントを受け付けていません

NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models

要約

大規模言語モデル (LLM) における幻覚は、特に事実の正確さが重要な一か八かのアプリケーションにおいて、依然として大きな障害となっています。
表現の編集および読み取り方法は幻覚の軽減に進歩を遂げていますが、特殊なツールとドメイン内サンプルでのトレーニングに大きく依存しているため、拡張が難しく、過剰学習が起こりやすくなっています。
これにより、精度の向上と多様なデータセットへの一般化が制限されます。
この論文では、アテンション ヘッド ノルムの未開発の可能性を利用して、ゼロショット多肢選択質問 (MCQ) における事実の精度を劇的に向上させる、軽量な手法であるノルム投票 (NoVo) を紹介します。
NoVo は、わずか 30 個のランダム サンプルを使用した、効率的な推論のみのアルゴリズムを使用して、真実相関の頭部ノルムを自動的に選択することから始まり、NoVo がさまざまなデータセットに簡単に拡張できるようになります。
その後、選択されたヘッド ノルムが単純な投票アルゴリズムに採用され、予測精度が大幅に向上します。
TruthfulQA MC1 では、NoVo は現在の最先端および以前のすべての方法を驚異的なマージンで上回っています (少なくとも 19 精度ポイント)。
NoVo は、20 の多様なデータセットに対する並外れた一般化を示し、その 90% 以上で大幅な向上が見られ、現在のすべての表現編集および読み取り方法をはるかに上回っています。
NoVo はまた、戦略を微調整し、テキストによる敵対的防御を構築することで有望な利益が得られることも明らかにしています。
ヘッド基準を備えた NoVo の有効性は、LLM の解釈可能性、堅牢性、信頼性において新たな境地を開きます。

要約(オリジナル)

Hallucinations in Large Language Models (LLMs) remain a major obstacle, particularly in high-stakes applications where factual accuracy is critical. While representation editing and reading methods have made strides in reducing hallucinations, their heavy reliance on specialised tools and training on in-domain samples, makes them difficult to scale and prone to overfitting. This limits their accuracy gains and generalizability to diverse datasets. This paper presents a lightweight method, Norm Voting (NoVo), which harnesses the untapped potential of attention head norms to dramatically enhance factual accuracy in zero-shot multiple-choice questions (MCQs). NoVo begins by automatically selecting truth-correlated head norms with an efficient, inference-only algorithm using only 30 random samples, allowing NoVo to effortlessly scale to diverse datasets. Afterwards, selected head norms are employed in a simple voting algorithm, which yields significant gains in prediction accuracy. On TruthfulQA MC1, NoVo surpasses the current state-of-the-art and all previous methods by an astounding margin — at least 19 accuracy points. NoVo demonstrates exceptional generalization to 20 diverse datasets, with significant gains in over 90\% of them, far exceeding all current representation editing and reading methods. NoVo also reveals promising gains to finetuning strategies and building textual adversarial defence. NoVo’s effectiveness with head norms opens new frontiers in LLM interpretability, robustness and reliability.

arxiv情報

著者 Zheng Yi Ho,Siyuan Liang,Sen Zhang,Yibing Zhan,Dacheng Tao
発行日 2024-10-11 16:40:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | NoVo: Norm Voting off Hallucinations with Attention Heads in Large Language Models はコメントを受け付けていません

ALVIN: Active Learning Via INterpolation

要約

アクティブ ラーニングは、ラベルのないデータのプールから最も有用なインスタンスを選択することで、アノテーションの労力を最小限に抑えることを目的としています。
しかし、典型的な能動学習手法では、クラス内の個別の例グループの存在が見落とされており、その普及率はさまざまであり、たとえば、職業分類データセットでは、特定の人口統計が特定のクラスに不均衡に表されています。
この見落としにより、モデルは予測の近道、つまり、適切に表現されたグループ内で発生する入力属性とラベル間の偽の相関に依存することになります。
この問題に対処するために、ALVIN (Active Learning Via INterpolation) を提案します。ALVIN は、過小表現されたグループと十分に表現されたグループのサンプル間でクラス内補間を実行し、アンカー、つまり表現空間内のサンプル グループ間に位置する人工的な点を作成します。
ALVIN は、注釈のアンカーに近いインスタンスを選択することで、ショートカットの影響を打ち消す表現空間の領域にモデルを公開する有益な例を特定します。
重要なのは、モデルではこれらの例は確実性が高いとみなされるため、一般的なアクティブ ラーニング手法では無視される可能性が高くなります。
感情分析、自然言語推論、言い換え検出を含む 6 つのデータセットに関する実験結果は、ALVIN が分布内および分布外の汎化の両方で最先端のアクティブ ラーニング手法を上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

Active Learning aims to minimize annotation effort by selecting the most useful instances from a pool of unlabeled data. However, typical active learning methods overlook the presence of distinct example groups within a class, whose prevalence may vary, e.g., in occupation classification datasets certain demographics are disproportionately represented in specific classes. This oversight causes models to rely on shortcuts for predictions, i.e., spurious correlations between input attributes and labels occurring in well-represented groups. To address this issue, we propose Active Learning Via INterpolation (ALVIN), which conducts intra-class interpolations between examples from under-represented and well-represented groups to create anchors, i.e., artificial points situated between the example groups in the representation space. By selecting instances close to the anchors for annotation, ALVIN identifies informative examples exposing the model to regions of the representation space that counteract the influence of shortcuts. Crucially, since the model considers these examples to be of high certainty, they are likely to be ignored by typical active learning methods. Experimental results on six datasets encompassing sentiment analysis, natural language inference, and paraphrase detection demonstrate that ALVIN outperforms state-of-the-art active learning methods in both in-distribution and out-of-distribution generalization.

arxiv情報

著者 Michalis Korakakis,Andreas Vlachos,Adrian Weller
発行日 2024-10-11 16:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | ALVIN: Active Learning Via INterpolation はコメントを受け付けていません

Learning Representations of Instruments for Partial Identification of Treatment Effects

要約

観察データから治療効果を信頼性高く推定することは、医学などの多くの分野において重要です。
ただし、因果推論の文献における標準的な仮定としての無交絡性に違反すると、推定は困難になります。
この研究では、任意の (潜在的に高次元の) 手段を活用して、条件付き平均治療効果 (CATE) の限界を推定します。
私たちの貢献は 3 つあります。 (1) CATE 上で有効な境界を生み出すために、機器を離散表現空間にマッピングすることにより、部分的な識別のための新しいアプローチを提案します。
これは、現実世界のアプリケーションで信頼性の高い意思決定を行うために非常に重要です。
(2) 潜在的な機器空間の調整された神経分割を使用して、厳密な境界を学習する 2 段階の手順を導き出します。
結果として、数値近似や敵対的トレーニングによる不安定性の問題を回避します。
さらに、私たちの手順は、有限サンプル設定での推定の分散を減らし、より信頼性の高い推定値を生成することを目的としています。
(3) 私たちの手順が推定の分散を減らしながら有効な範囲を取得することを理論的に示します。
さらに、さまざまな設定での有効性を実証するために広範な実験を実施します。
全体として、私たちの手順は、潜在的に高次元の手段(たとえば、メンデルのランダム化など)を利用するための新しい道を実践者に提供します。

要約(オリジナル)

Reliable estimation of treatment effects from observational data is important in many disciplines such as medicine. However, estimation is challenging when unconfoundedness as a standard assumption in the causal inference literature is violated. In this work, we leverage arbitrary (potentially high-dimensional) instruments to estimate bounds on the conditional average treatment effect (CATE). Our contributions are three-fold: (1) We propose a novel approach for partial identification through a mapping of instruments to a discrete representation space so that we yield valid bounds on the CATE. This is crucial for reliable decision-making in real-world applications. (2) We derive a two-step procedure that learns tight bounds using a tailored neural partitioning of the latent instrument space. As a result, we avoid instability issues due to numerical approximations or adversarial training. Furthermore, our procedure aims to reduce the estimation variance in finite-sample settings to yield more reliable estimates. (3) We show theoretically that our procedure obtains valid bounds while reducing estimation variance. We further perform extensive experiments to demonstrate the effectiveness across various settings. Overall, our procedure offers a novel path for practitioners to make use of potentially high-dimensional instruments (e.g., as in Mendelian randomization).

arxiv情報

著者 Jonas Schweisthal,Dennis Frauen,Maresa Schröder,Konstantin Hess,Niki Kilbertus,Stefan Feuerriegel
発行日 2024-10-11 16:48:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Learning Representations of Instruments for Partial Identification of Treatment Effects はコメントを受け付けていません

Overcoming Slow Decision Frequencies in Continuous Control: Model-Based Sequence Reinforcement Learning for Model-Free Control

要約

強化学習 (RL) は急速に人間レベルの制御能力に達し、それを超えています。
ただし、最先端の RL アルゴリズムでは、多くの場合、人間の能力よりも大幅に速いタイムステップと反応時間が必要ですが、これは現実世界の設定では非現実的であり、通常は専用のハードウェアが必要です。
このような速度は現実世界では達成するのが難しく、多くの場合、特殊なハードウェアが必要になります。
シーケンス強化学習 (SRL) は、特定の入力状態に対して一連のアクションを生成するように設計された RL アルゴリズムであり、より低い決定頻度で効果的な制御を可能にします。
SRL は、さまざまな時間スケールで動作するモデルとアクタークリティカル アーキテクチャの両方を採用することで、アクション シーケンスを学習するという課題に対処します。
我々は、批評家がモデルを使用して原始的なアクション間の中間状態を推定し、シーケンス内の個々のアクションごとに学習信号を提供する「時間的想起」メカニズムを提案します。
トレーニングが完了すると、アクターはモデルとは独立してアクション シーケンスを生成し、より遅い頻度でモデルフリーの制御を実現できます。
一連の連続制御タスクで SRL を評価し、アクター サンプルの複雑さを大幅に軽減しながら、最先端のアルゴリズムに匹敵するパフォーマンスを達成することを実証しました。
さまざまな決定頻度にわたるパフォーマンスをより適切に評価するために、周波数平均スコア (FAS) メトリクスを導入します。
私たちの結果は、SRL が FAS の点で従来の RL アルゴリズムを大幅に上回り、可変の決定頻度を必要とするアプリケーションに特に適していることを示しています。
さらに、SRL とモデルベースのオンライン計画を比較し、オンライン プランナーが計画に使用するトレーニング中に同じモデルを活用しながら、SRL が優れた FAS を達成することを示します。

要約(オリジナル)

Reinforcement learning (RL) is rapidly reaching and surpassing human-level control capabilities. However, state-of-the-art RL algorithms often require timesteps and reaction times significantly faster than human capabilities, which is impractical in real-world settings and typically necessitates specialized hardware. Such speeds are difficult to achieve in the real world and often requires specialized hardware. We introduce Sequence Reinforcement Learning (SRL), an RL algorithm designed to produce a sequence of actions for a given input state, enabling effective control at lower decision frequencies. SRL addresses the challenges of learning action sequences by employing both a model and an actor-critic architecture operating at different temporal scales. We propose a ‘temporal recall’ mechanism, where the critic uses the model to estimate intermediate states between primitive actions, providing a learning signal for each individual action within the sequence. Once training is complete, the actor can generate action sequences independently of the model, achieving model-free control at a slower frequency. We evaluate SRL on a suite of continuous control tasks, demonstrating that it achieves performance comparable to state-of-the-art algorithms while significantly reducing actor sample complexity. To better assess performance across varying decision frequencies, we introduce the Frequency-Averaged Score (FAS) metric. Our results show that SRL significantly outperforms traditional RL algorithms in terms of FAS, making it particularly suitable for applications requiring variable decision frequencies. Additionally, we compare SRL with model-based online planning, showing that SRL achieves superior FAS while leveraging the same model during training that online planners use for planning.

arxiv情報

著者 Devdhar Patel,Hava Siegelmann
発行日 2024-10-11 16:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Overcoming Slow Decision Frequencies in Continuous Control: Model-Based Sequence Reinforcement Learning for Model-Free Control はコメントを受け付けていません

Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective

要約

最近、ナレッジ グラフ (KG) は、KG ベースの検索拡張フレームワークなどで、幻覚を緩和し、推論能力を強化するために大規模言語モデル (LLM) とうまく結合されています。
ただし、現在の KG-LLM フレームワークには厳密な不確実性の推定が欠けており、一か八かのアプリケーションでの信頼性の高い導入が制限されています。
KG-LLM フレームワークに不確実性の定量化を直接組み込むと、その複雑なアーキテクチャとナレッジ グラフと言語モデル コンポーネント間の複雑な相互作用により課題が生じます。
このギャップに対処するために、我々は、KG-LLM フレームワークに不確実性の定量化を組み込んだ、信頼できる新しい KG-LLM フレームワークである Uncertainty Aware Knowledge-Graph Reasoning (UAG) を提案します。
私たちは、等角予測を活用して予測セットに理論的な保証を提供する、不確実性を認識した複数ステップの推論フレームワークを設計します。
マルチステッププロセスのエラー率を管理するために、個々のコンポーネント内のエラー率を調整するエラー率制御モジュールをさらに導入します。
広範な実験により、私たちが提案する UAG は、予測セット/間隔のサイズをベースラインより平均 40% 削減しながら、事前に定義された任意のカバレッジ レートを達成できることが示されています。

要約(オリジナル)

Recently, Knowledge Graphs (KGs) have been successfully coupled with Large Language Models (LLMs) to mitigate their hallucinations and enhance their reasoning capability, such as in KG-based retrieval-augmented frameworks. However, current KG-LLM frameworks lack rigorous uncertainty estimation, limiting their reliable deployment in high-stakes applications. Directly incorporating uncertainty quantification into KG-LLM frameworks presents challenges due to their complex architectures and the intricate interactions between the knowledge graph and language model components. To address this gap, we propose a new trustworthy KG-LLM framework, Uncertainty Aware Knowledge-Graph Reasoning (UAG), which incorporates uncertainty quantification into the KG-LLM framework. We design an uncertainty-aware multi-step reasoning framework that leverages conformal prediction to provide a theoretical guarantee on the prediction set. To manage the error rate of the multi-step process, we additionally introduce an error rate control module to adjust the error rate within the individual components. Extensive experiments show that our proposed UAG can achieve any pre-defined coverage rate while reducing the prediction set/interval size by 40% on average over the baselines.

arxiv情報

著者 Bo Ni,Yu Wang,Lu Cheng,Erik Blasch,Tyler Derr
発行日 2024-10-11 16:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Trustworthy Knowledge Graph Reasoning: An Uncertainty Aware Perspective はコメントを受け付けていません