Boosting Sample Efficiency and Generalization in Multi-agent Reinforcement Learning via Equivariance

要約

マルチエージェント強化学習 (MARL) は、サンプルの非効率性と貧弱な一般化に悩まされています [1]。
これらの課題の一部は、ポリシーの学習に通常使用されるニューラル ネットワークの構造または誘導バイアスの欠如が原因です。
マルチエージェントのシナリオで一般的に観察される構造の形式の 1 つは、対称性です。
幾何学深層学習の分野では、ノードの回転、平行移動、反射に対して等変 (または対称) である等変グラフ ニューラル ネットワーク (EGNN) が開発されました。
等分散を組み込むと、学習効率が向上し、エラーが減少することが示されています [2]。
この論文では、EGNN が MARL におけるサンプル効率と一般化を向上させることを実証します。
ただし、EGNN を単純に MARL に適用すると、EGNN 構造の偏りにより初期探索が不十分になることも示します。
このバイアスを軽減するために、探索強化等変グラフ ニューラル ネットワーク (E2GN2) を紹介します。
一般的な MARL ベンチマーク MPE および SMACv2 を使用して、E2GN2 を他の一般的な関数近似器と比較します。
E2GN2 は、一般化テストにおいて、サンプル効率の大幅な向上、最終的な報酬収束の向上、標準 GNN と比較して 2 倍から 5 倍の利得を示しています。
これらの結果は、複雑なマルチエージェント システムにおいて、より信頼性が高く効果的なソリューションへの道を開きます。

要約(オリジナル)

Multi-Agent Reinforcement Learning (MARL) struggles with sample inefficiency and poor generalization [1]. These challenges are partially due to a lack of structure or inductive bias in the neural networks typically used in learning the policy. One such form of structure that is commonly observed in multi-agent scenarios is symmetry. The field of Geometric Deep Learning has developed Equivariant Graph Neural Networks (EGNN) that are equivariant (or symmetric) to rotations, translations, and reflections of nodes. Incorporating equivariance has been shown to improve learning efficiency and decrease error [ 2 ]. In this paper, we demonstrate that EGNNs improve the sample efficiency and generalization in MARL. However, we also show that a naive application of EGNNs to MARL results in poor early exploration due to a bias in the EGNN structure. To mitigate this bias, we present Exploration-enhanced Equivariant Graph Neural Networks or E2GN2. We compare E2GN2 to other common function approximators using common MARL benchmarks MPE and SMACv2. E2GN2 demonstrates a significant improvement in sample efficiency, greater final reward convergence, and a 2x-5x gain in over standard GNNs in our generalization tests. These results pave the way for more reliable and effective solutions in complex multi-agent systems.

arxiv情報

著者 Joshua McClellan,Naveed Haghani,John Winder,Furong Huang,Pratap Tokekar
発行日 2024-10-22 16:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Boosting Sample Efficiency and Generalization in Multi-agent Reinforcement Learning via Equivariance はコメントを受け付けていません

Layered LA-MAPF: a decomposition of large agent MAPF instance to accelerate solving without compromising solvability

要約

マルチエージェント パス ファインディング (MAPF) は、近年広く研究されています。
ただし、既存の MAPF アルゴリズムのほとんどは、エージェントがグリッドベースのマップ内の 1 つのグリッドのみを占有することを前提としています。
この仮定により、エージェントが点状ではなく幾何学的形状を持つ多くの実世界の領域での適用が制限されます。
複数のセルを同時に占有することができるこのようなエージェントは、「大型」エージェントと呼ばれます。
MAPF でエージェントの形状とサイズを考慮すると、主に幾何学的なエージェント間の競合検出のオーバーヘッドが増加するため、エージェントの数が増えるにつれて計算の複雑さが大幅に増加します。
この論文では、LA-MAPF (Large-Agent MAPF) 問題に対して 2 種類の部分問題を提案します: \textbf{cluster} (解の順序に制約がない) と \textbf{level} (解の順序に制約を課す)
解決策の順序)。
\textbf{Layered LA-MAPF} を導入します。これは、ジオメトリック エージェントを含む MAPF インスタンスをクラスターに分解し、各クラスターをさらにレベルに分解します。
このアプローチは、LA-MAPF 問題を解決する際の時間の複雑さを軽減することを目的としています。
私たちの結果は、さまざまなマップにわたってエージェントの数が増加したときのこの手法のパフォーマンスと、LA-CBS や LA-LaCAM などの LA-MAPF 手法がどのように高速化されるかを示しています。
実験によると、インスタンス分解を使用した LA-MAPF メソッド \textbf{時間コストが半分になり (平均 40 秒から 20 秒に短縮)、成功率が 3 倍になり (平均 0.27 から 0.80 に)}、60 秒以内に解を見つけることができました。

さらなる研究を促進するために、Layered LA-MAPF のソース コードを \url{https://github.com/JoeYao-bit/LayeredMAPF/algorithm/LA-MAPF} で公開しました。

要約(オリジナル)

Multi-Agent Path Finding (MAPF) has been widely studied in recent years. However, most existing MAPF algorithms assume that an agent occupies only a single grid in a grid-based map. This assumption limits their applicability in many real-world domains where agents have geometric shapes, rather than being point-like. Such agents, which can occupy multiple cells simultaneously, are referred to as “large” agents. When considering the shape and size of agents in MAPF, the computational complexity increases significantly as the number of agents grows, primarily due to the increased overhead in conflict detection between geometric agents. In this paper, we propose two types of subproblems for the LA-MAPF (Large-Agent MAPF) problem: \textbf{cluster} (which has no constraints on the order of solution) and \textbf{level} (which imposes constraints on the solution order). We introduce \textbf{Layered LA-MAPF}, a method that decomposes a MAPF instance involving geometric agents into clusters, and then further decomposes each cluster into levels. This approach aims to reduce time complexity when solving LA-MAPF problems. Our results demonstrate the performance of our method as the number of agents increases across various maps, and how it accelerates LA-MAPF methods, such as LA-CBS and LA-LaCAM. Experiments show that our LA-MAPF method with instance decomposition \textbf{halves the time cost (reducing from an average of 40s to 20s) and triples the success rate (from an average of 0.27 to 0.80)} in finding a solution within 60 seconds. To facilitate further research, we have made the source code for Layered LA-MAPF publicly available at \url{https://github.com/JoeYao-bit/LayeredMAPF/algorithm/LA-MAPF}.

arxiv情報

著者 Zhuo Yao
発行日 2024-10-22 16:34:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Layered LA-MAPF: a decomposition of large agent MAPF instance to accelerate solving without compromising solvability はコメントを受け付けていません

Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding

要約

タンパク質の逆フォールディング、つまり、望ましい 3D 構造に折りたたまれるアミノ酸配列の予測は、構造に基づいたタンパク質設計にとって重要な問題です。
機械学習ベースの逆折りたたみ手法では、通常、最適化の目的として元のシーケンスの回復が使用されます。
ただし、逆折りたたみは、複数のシーケンスが同じ構造に折りたたまれる可能性がある 1 対多の問題です。
さらに、多くの実際の応用では、下流の最適化のためにより多くの候補配列を可能にするため、ターゲット構造に折り畳まれる複数の多様な配列を持つことが望ましいことがよくあります。
ここで、我々は、最近の逆フォールディング法は配列回復の増加を示しているが、その「フォールディング可能な多様性」、すなわち、
標的と一致する構造に折りたたまれる複数の非類似配列を生成する能力は増加しません。
これに対処するために、シーケンス回復に関して事前トレーニングされ、構造の一貫性に関して強化学習によって調整された逆折り畳み用のカテゴリカル拡散モデルである RL-DIF を紹介します。
RL-DIF はベンチマーク モデルと同等の配列回復性と構造的一貫性を達成しているが、より優れた折り畳み可能な多様性を示していることがわかりました。実験により、RL-DIF は、同じデータセットでトレーニングされたモデルからの 23% と比較して、CATH 4.2 では 29% の折り畳み可能な多様性を達成できることが示されました。

PyTorch モデルの重みとサンプリング コードは GitHub で入手できます。

要約(オリジナル)

Protein inverse folding-that is, predicting an amino acid sequence that will fold into the desired 3D structure-is an important problem for structure-based protein design. Machine learning based methods for inverse folding typically use recovery of the original sequence as the optimization objective. However, inverse folding is a one-to-many problem where several sequences can fold to the same structure. Moreover, for many practical applications, it is often desirable to have multiple, diverse sequences that fold into the target structure since it allows for more candidate sequences for downstream optimizations. Here, we demonstrate that although recent inverse folding methods show increased sequence recovery, their ‘foldable diversity’-i.e. their ability to generate multiple non-similar sequences that fold into the structures consistent with the target-does not increase. To address this, we present RL-DIF, a categorical diffusion model for inverse folding that is pre-trained on sequence recovery and tuned via reinforcement learning on structural consistency. We find that RL-DIF achieves comparable sequence recovery and structural consistency to benchmark models but shows greater foldable diversity: experiments show RL-DIF can achieve an foldable diversity of 29% on CATH 4.2, compared to 23% from models trained on the same dataset. The PyTorch model weights and sampling code are available on GitHub.

arxiv情報

著者 Yasha Ektefaie,Olivia Viessmann,Siddharth Narayanan,Drew Dresser,J. Mark Kim,Armen Mkrtchyan
発行日 2024-10-22 16:50:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Reinforcement learning on structure-conditioned categorical diffusion for protein inverse folding はコメントを受け付けていません

EMPOWER: Embodied Multi-role Open-vocabulary Planning with Online Grounding and Execution

要約

現実の環境におけるロボットのタスク計画には、大きな課題が伴います。
これらの課題は、次の 3 つの主な問題から生じています。1 つは、目標を達成するための根拠のある一連のステップを特定することの難しさです。
高レベルのアクションと低レベルのコマンド間の標準化されたマッピングの欠如。
そして、ロボット ハードウェアのリソースが限られているため、計算オーバーヘッドを低く維持するという課題があります。
これらの問題に対処することを目的とした、オープンボキャブラリーのオンライングラウンディングと具体的なエージェントの計画のために設計されたフレームワークである EMPOWER を紹介します。
EMPOWER は、効率的な事前トレーニング済みの基礎モデルと複数の役割のメカニズムを活用することにより、地に足の着いた計画と実行において顕著な改善を示しています。
定量的な結果は、TIAGo ロボットを使用した 6 つの異なる実際のシナリオ全体で平均成功率 0.73 を達成し、当社のアプローチの有効性を強調しています。

要約(オリジナル)

Task planning for robots in real-life settings presents significant challenges. These challenges stem from three primary issues: the difficulty in identifying grounded sequences of steps to achieve a goal; the lack of a standardized mapping between high-level actions and low-level commands; and the challenge of maintaining low computational overhead given the limited resources of robotic hardware. We introduce EMPOWER, a framework designed for open-vocabulary online grounding and planning for embodied agents aimed at addressing these issues. By leveraging efficient pre-trained foundation models and a multi-role mechanism, EMPOWER demonstrates notable improvements in grounded planning and execution. Quantitative results highlight the effectiveness of our approach, achieving an average success rate of 0.73 across six different real-life scenarios using a TIAGo robot.

arxiv情報

著者 Francesco Argenziano,Michele Brienza,Vincenzo Suriani,Daniele Nardi,Domenico D. Bloisi
発行日 2024-10-22 16:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | EMPOWER: Embodied Multi-role Open-vocabulary Planning with Online Grounding and Execution はコメントを受け付けていません

LLMs left, right, and center: Assessing GPT’s capabilities to label political bias from web domains

要約

この研究では、最先端の大規模言語モデルである OpenAI の GPT-4 が、ニュース ソースの政治的偏向を URL のみに基づいて正確に分類できるかどうかを調査します。
政治的ラベルの主観的な性質を考慮して、ニュースソースの多様性を分析する研究では、Ad Fontes Media、AllSides、Media Bias/Fact Check (MBFC) などの第三者によるバイアス評価がよく使用されます。
この研究は、GPT-4 がこれらの人間の評価を 7 段階のスケール (「極左」から「極右」) で再現できるかどうかを判断することを目的としています。
この分析では、GPT-4 の分類と MBFC の分類を比較し、Open PageRank スコアを使用して Web サイトの人気を制御します。
調査結果では、GPT-4 の評価と MBFC の評価の間に高い相関関係 ($\text{Spearman’s } \rho = .89$、$n = 5,877$、$p < 0.001$) が明らかになり、モデルの潜在的な信頼性が示されています。 ただし、GPT-4 はデータセットの約 $\frac{2}{3}$ を分類することを拒否しました。 人気のない Web サイトの評価は控える可能性が高く、評価の精度も低くなります。 LLM は、MBFC が中道派と見なす情報源の分類を避ける傾向があり、その結果、出力がより二極化することになります。 最後に、この分析は、MBFC と比較して GPT の分類がわずかに左に偏っていることを示しています。 したがって、この論文では、GPT-4 はニュース Web サイトの政治的偏見を分類するためのスケーラブルで費用対効果の高いツールとなり得る一方で、その使用は偏見を軽減する人間の判断を補完するものとしてすべきであると示唆しています。

要約(オリジナル)

This research investigates whether OpenAI’s GPT-4, a state-of-the-art large language model, can accurately classify the political bias of news sources based solely on their URLs. Given the subjective nature of political labels, third-party bias ratings like those from Ad Fontes Media, AllSides, and Media Bias/Fact Check (MBFC) are often used in research to analyze news source diversity. This study aims to determine if GPT-4 can replicate these human ratings on a seven-degree scale (‘far-left’ to ‘far-right’). The analysis compares GPT-4’s classifications against MBFC’s, and controls for website popularity using Open PageRank scores. Findings reveal a high correlation ($\text{Spearman’s } \rho = .89$, $n = 5,877$, $p < 0.001$) between GPT-4's and MBFC's ratings, indicating the model's potential reliability. However, GPT-4 abstained from classifying approximately $\frac{2}{3}$ of the dataset. It is more likely to abstain from rating unpopular websites, which also suffer from less accurate assessments. The LLM tends to avoid classifying sources that MBFC considers to be centrist, resulting in more polarized outputs. Finally, this analysis shows a slight leftward skew in GPT's classifications compared to MBFC's. Therefore, while this paper suggests that while GPT-4 can be a scalable, cost-effective tool for political bias classification of news websites, its use should be as a complement to human judgment to mitigate biases.

arxiv情報

著者 Raphael Hernandes,Giulio Corsi
発行日 2024-10-22 16:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | LLMs left, right, and center: Assessing GPT’s capabilities to label political bias from web domains はコメントを受け付けていません

The Impact of Large Language Models in Academia: from Writing to Speaking

要約

大規模言語モデル (LLM) は、特にテキスト情報において人間社会にますます影響を与えています。
機械学習カンファレンスでの 30,000 以上の論文と 1,000 のプレゼンテーションに基づいて、私たちは書き言葉と話し言葉で使用される単語を調査および比較しました。これは、LLM が同じグループ内での口頭コミュニケーションと表現の 2 つの主要なモードにどのような影響を与えるかについての最初の大規模な研究を表しています。
人々の。
私たちの経験的な結果は、「重要な」などの LLM スタイルの単語が要約や口頭プレゼンテーションでより頻繁に使用されていることを示しています。
スピーキングへの影響は顕在化し始めており、今後さらに大きくなる可能性があり、人間社会に対するLLMの暗黙の影響と波及効果に注目が集まっています。

要約(オリジナル)

Large language models (LLMs) are increasingly impacting human society, particularly in textual information. Based on more than 30,000 papers and 1,000 presentations from machine learning conferences, we examined and compared the words used in writing and speaking, representing the first large-scale study of how LLMs influence the two main modes of verbal communication and expression within the same group of people. Our empirical results show that LLM-style words such as ‘significant’ have been used more frequently in abstracts and oral presentations. The impact on speaking is beginning to emerge and is likely to grow in the future, calling attention to the implicit influence and ripple effect of LLMs on human society.

arxiv情報

著者 Mingmeng Geng,Caixi Chen,Yanru Wu,Dongping Chen,Yao Wan,Pan Zhou
発行日 2024-10-22 17:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.DL, cs.LG | The Impact of Large Language Models in Academia: from Writing to Speaking はコメントを受け付けていません

DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning

要約

インフォマティブ パス プランニング (IPP) は、環境監視などのさまざまな現実世界のロボット アプリケーションにとって重要な計画パラダイムです。
IPP には、計画上の制約を遵守しながら、対象量の正確な信念を学習できるパスの計画が含まれます。
従来の IPP 手法は通常、実行中に長い計算時間を必要とするため、強化学習 (RL) ベースの IPP 手法が登場しました。
しかし、既存の RL ベースの手法は、環境特性の変化による独自の課題を伴う時空間環境を考慮していません。
この論文では、ダイナミクスが変化する時空間環境全体で効果的に動作するように設計された、堅牢な RL ベースの IPP フレームワークである DyPNIPP を提案します。
これを達成するために、DyPNIPP はドメインのランダム化を組み込んでさまざまな環境にわたってエージェントをトレーニングし、ダイナミクス予測モデルを導入してエージェントのアクションをキャプチャして特定の環境のダイナミクスに適応させます。
山火事環境での広範な実験により、DyPNIPP が堅牢性を大幅に向上させ、さまざまな環境条件でパフォーマンスを発揮することにより、既存の RL ベースの IPP アルゴリズムを上回るパフォーマンスを示すことが実証されました。

要約(オリジナル)

Informative path planning (IPP) is an important planning paradigm for various real-world robotic applications such as environment monitoring. IPP involves planning a path that can learn an accurate belief of the quantity of interest, while adhering to planning constraints. Traditional IPP methods typically require high computation time during execution, giving rise to reinforcement learning (RL) based IPP methods. However, the existing RL-based methods do not consider spatio-temporal environments which involve their own challenges due to variations in environment characteristics. In this paper, we propose DyPNIPP, a robust RL-based IPP framework, designed to operate effectively across spatio-temporal environments with varying dynamics. To achieve this, DyPNIPP incorporates domain randomization to train the agent across diverse environments and introduces a dynamics prediction model to capture and adapt the agent actions to specific environment dynamics. Our extensive experiments in a wildfire environment demonstrate that DyPNIPP outperforms existing RL-based IPP algorithms by significantly improving robustness and performing across diverse environment conditions.

arxiv情報

著者 Srujan Deolasee,Siva Kailas,Wenhao Luo,Katia Sycara,Woojun Kim
発行日 2024-10-22 17:07:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning はコメントを受け付けていません

Language Model Non-myopic Generation for Reasoning and Planning

要約

大規模言語モデルは、複雑な問題を連続したステップに分解することにより、推論と計画において優れた能力を実証してきました。
LLM は、数学的問題解決やコーディングなどのさまざまな分野で成功を収めていますが、自己回帰デコーディングの固有の近視眼的な性質により、信頼性が高く最適な計画を確実に行うという課題に直面しています。
この論文では、最適制御の観点から LLM 推論を再検討し、モデル予測制御を活用して計画精度を向上させる新しい方法である予測デコーディングを提案します。
Predictive-Decoding は、予測軌道に基づいて LLM 分布の重み付けを変更することで、初期のエラーを軽減し、近視眼的ではない計画を促進することを目的としています。
私たちの実験では、数学、コーディング、エージェントなどの幅広いタスクで大幅な改善が見られました。
さらに、予測デコーディングは計算効率を実証し、少ない計算リソースで検索ベースラインを上回るパフォーマンスを発揮します。
この調査は、LLM 計画機能の最適化に関する洞察を提供します。

要約(オリジナル)

Large Language Models have demonstrated remarkable abilities in reasoning and planning by breaking down complex problems into sequential steps. Despite their success in various domains like mathematical problem-solving and coding, LLMs face challenges in ensuring reliable and optimal planning due to their inherent myopic nature of autoregressive decoding. This paper revisits LLM reasoning from an optimal-control perspective, proposing a novel method, Predictive-Decoding, that leverages Model Predictive Control to enhance planning accuracy. By re-weighting LLM distributions based on foresight trajectories, Predictive-Decoding aims to mitigate early errors and promote non-myopic planning. Our experiments show significant improvements in a wide range of tasks for math, coding, and agents. Furthermore, Predictive-Decoding demonstrates computational efficiency, outperforming search baselines with reduced computational resources. This study provides insights into optimizing LLM planning capabilities.

arxiv情報

著者 Chang Ma,Haiteng Zhao,Junlei Zhang,Junxian He,Lingpeng Kong
発行日 2024-10-22 17:13:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Language Model Non-myopic Generation for Reasoning and Planning はコメントを受け付けていません

VoiceBench: Benchmarking LLM-Based Voice Assistants

要約

大規模言語モデル (LLM) の成功に基づいて、GPT-4o などの最近の進歩により、LLM ベースの音声アシスタントによるリアルタイムの音声対話が可能になり、従来のテキストベースの対話と比較してユーザー エクスペリエンスが大幅に向上しました。
しかし、これらの音声対話機能を評価するために設計されたベンチマークが存在しないため、LLM ベースの音声アシスタント開発の進歩が妨げられてきました。
現在の評価は、主に自動音声認識 (ASR) やきれいなスピーチによる一般知識の評価に焦点を当てており、多様な話者の特性、環境、内容の要因を含む、より複雑な現実世界のシナリオは無視されています。
これに対処するために、LLM ベースの音声アシスタントの多面的な評価を提供するように設計された最初のベンチマークである VoiceBench を紹介します。
VoiceBench には、上記の 3 つの主要な現実世界のバリエーションを組み込んだ実際の音声指示と合成音声指示の両方も含まれています。
広範な実験により、現在の LLM ベースの音声アシスタント モデルの限界が明らかになり、この分野の将来の研究開発に貴重な洞察が得られます。

要約(オリジナル)

Building on the success of large language models (LLMs), recent advancements such as GPT-4o have enabled real-time speech interactions through LLM-based voice assistants, offering a significantly improved user experience compared to traditional text-based interactions. However, the absence of benchmarks designed to evaluate these speech interaction capabilities has hindered progress of LLM-based voice assistants development. Current evaluations focus primarily on automatic speech recognition (ASR) or general knowledge evaluation with clean speeches, neglecting the more intricate, real-world scenarios that involve diverse speaker characteristics, environmental and content factors. To address this, we introduce VoiceBench, the first benchmark designed to provide a multi-faceted evaluation of LLM-based voice assistants. VoiceBench also includes both real and synthetic spoken instructions that incorporate the above three key real-world variations. Extensive experiments reveal the limitations of current LLM-based voice assistant models and offer valuable insights for future research and development in this field.

arxiv情報

著者 Yiming Chen,Xianghu Yue,Chen Zhang,Xiaoxue Gao,Robby T. Tan,Haizhou Li
発行日 2024-10-22 17:15:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | VoiceBench: Benchmarking LLM-Based Voice Assistants はコメントを受け付けていません

ACPBench: Reasoning about Action, Change, and Planning

要約

ワークフローを調整し、計画と複数ステップの推論を必要とするドメインで意思決定を行うためのエージェントとして大規模言語モデル (LLM) を使用する作業が増えています。
そのため、計画に必要なコアスキルに基づいて LLM を評価することが不可欠です。
この研究では、計画分野における推論タスクを評価するためのベンチマークである ACPBench を紹介します。
このベンチマークは、13 の計画ドメインにわたる 7 つの推論タスクで構成されます。
このコレクションは、形式言語で記述された計画ドメインから構成されています。
これにより、多くのタスクやドメインにわたって問題を、証明された正しい解決策と統合することができます。
さらに、人間による追加の労力を必要とせずに、スケールを最大限に活用できるようになります。つまり、多くの追加の問題を自動的に作成できます。
22 個の LLM と OpenAI o1 推論モデルの広範な評価では、LLM の推論能力に大きなギャップがあることが浮き彫りになりました。
マルチターン推論モデルである OpenAI o1 に関する調査結果では、多肢選択式の質問ではパフォーマンスが大幅に向上していることが明らかになりましたが、驚くべきことに、ブール式の質問では目立った進歩が見られませんでした。
ACPBench コレクションは https://ibm.github.io/ACPBench で入手できます。

要約(オリジナル)

There is an increasing body of work using Large Language Models (LLMs) as agents for orchestrating workflows and making decisions in domains that require planning and multi-step reasoning. As a result, it is imperative to evaluate LLMs on core skills required for planning. In this work, we present ACPBench, a benchmark for evaluating the reasoning tasks in the field of planning. The benchmark consists of 7 reasoning tasks over 13 planning domains. The collection is constructed from planning domains described in a formal language. This allows us to synthesize problems with provably correct solutions across many tasks and domains. Further, it allows us the luxury of scale without additional human effort, i.e., many additional problems can be created automatically. Our extensive evaluation of 22 LLMs and OpenAI o1 reasoning models highlights the significant gap in the reasoning capability of the LLMs. Our findings with OpenAI o1, a multi-turn reasoning model, reveal significant gains in performance on multiple-choice questions, yet surprisingly, no notable progress is made on boolean questions. The ACPBench collection is available at https://ibm.github.io/ACPBench.

arxiv情報

著者 Harsha Kokel,Michael Katz,Kavitha Srinivas,Shirin Sohrabi
発行日 2024-10-22 17:16:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | ACPBench: Reasoning about Action, Change, and Planning はコメントを受け付けていません