PointOBB-v2: Towards Simpler, Faster, and Stronger Single Point Supervised Oriented Object Detection

要約

単一点教師あり指向物体検出は注目を集め、コミュニティ内で初期の進歩を遂げました。
ワンショット サンプルや強力な事前トレーニング済みモデル (SAM など) に依存するアプローチとは異なり、PointOBB は事前不要の機能により有望性を示しています。
この論文では、他の先行技術に依存せずに点から疑似回転ボックスを生成するための、よりシンプルで高速かつ強力な方法である PointOBB-v2 を提案します。
具体的には、まず、不均一な正および負のサンプリングでネットワークをトレーニングすることにより、クラス確率マップ (CPM) を生成します。
CPM がおおよそのオブジェクト領域とその輪郭を学習できることを示します。
次に、主成分分析 (PCA) を適用して、オブジェクトの方向と境界を正確に推定します。
さらに分離メカニズムを組み込むことで、CPM 上の重複によって引き起こされる混乱を解決し、高密度シナリオでの動作を可能にします。
広範な比較により、DOTA-v1.0/v1.5/v2.0 データセットでは、以前の状態と比較して、私たちのメソッドが 15.58 倍速いトレーニング速度と 11.60%/25.15%/21.19% の精度向上を達成していることが実証されています。
アート、PointOBB。
これにより、モジュラートラックにおける単一点監視付き指向検出の最先端が大幅に進歩します。

要約(オリジナル)

Single point supervised oriented object detection has gained attention and made initial progress within the community. Diverse from those approaches relying on one-shot samples or powerful pretrained models (e.g. SAM), PointOBB has shown promise due to its prior-free feature. In this paper, we propose PointOBB-v2, a simpler, faster, and stronger method to generate pseudo rotated boxes from points without relying on any other prior. Specifically, we first generate a Class Probability Map (CPM) by training the network with non-uniform positive and negative sampling. We show that the CPM is able to learn the approximate object regions and their contours. Then, Principal Component Analysis (PCA) is applied to accurately estimate the orientation and the boundary of objects. By further incorporating a separation mechanism, we resolve the confusion caused by the overlapping on the CPM, enabling its operation in high-density scenarios. Extensive comparisons demonstrate that our method achieves a training speed 15.58x faster and an accuracy improvement of 11.60%/25.15%/21.19% on the DOTA-v1.0/v1.5/v2.0 datasets compared to the previous state-of-the-art, PointOBB. This significantly advances the cutting edge of single point supervised oriented detection in the modular track.

arxiv情報

著者 Botao Ren,Xue Yang,Yi Yu,Junwei Luo,Zhidong Deng
発行日 2024-10-10 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

LatteCLIP: Unsupervised CLIP Fine-Tuning via LMM-Synthetic Texts

要約

大規模ビジョン言語事前トレーニング (VLP) モデル (CLIP など) は、ゼロショット設定でさまざまなアプリケーションに適用できるため、その多用途性で知られています。
ただし、これらのモデルが特定のドメインで使用される場合、ドメインのギャップやトレーニング データ内のこれらのドメインの過小表現により、パフォーマンスが低下することがよくあります。
人間がアノテーションを付けたラベルを使用してカスタム データセットの VLP モデルを微調整することでこの問題に対処できますが、小規模なデータセット (例: 100,000 サンプル) にアノテーションを付けるのは費用がかかる作業となる可能性があり、タスクが複雑な場合は専門のアノテーターが必要になることがよくあります。
これらの課題に対処するために、私たちは LatteCLIP を提案します。LatteCLIP は、人間による注釈に依存せず、カスタム ドメイン内の既知のクラス名による分類に基づいて CLIP モデルを微調整するための教師なし手法です。
私たちの方法では、大規模マルチモーダル モデル (LMM) を利用して、個々の画像と画像のグループの両方について表現力豊かなテキストの説明を生成します。
これらは、カスタム ドメインでの微調整プロセスをガイドするための追加のコンテキスト情報を提供します。
LMM で生成された記述は幻覚や詳細の欠落を招きやすいため、有用な情報のみを抽出してトレーニングを安定させるための新しい戦略を導入します。
具体的には、ノイズの多い生成テキストと二重擬似ラベルから、クラスごとの豊富なプロトタイプ表現を学習します。
10 のドメイン固有のデータセットに対する実験では、LatteCLIP が事前トレーニング済みのゼロショット手法よりもトップ 1 精度で平均 +4​​.74 ポイント向上し、その他の最先端の教師なし手法よりも +3.45 ポイント優れていることがわかりました。

要約(オリジナル)

Large-scale vision-language pre-trained (VLP) models (e.g., CLIP) are renowned for their versatility, as they can be applied to diverse applications in a zero-shot setup. However, when these models are used in specific domains, their performance often falls short due to domain gaps or the under-representation of these domains in the training data. While fine-tuning VLP models on custom datasets with human-annotated labels can address this issue, annotating even a small-scale dataset (e.g., 100k samples) can be an expensive endeavor, often requiring expert annotators if the task is complex. To address these challenges, we propose LatteCLIP, an unsupervised method for fine-tuning CLIP models on classification with known class names in custom domains, without relying on human annotations. Our method leverages Large Multimodal Models (LMMs) to generate expressive textual descriptions for both individual images and groups of images. These provide additional contextual information to guide the fine-tuning process in the custom domains. Since LMM-generated descriptions are prone to hallucination or missing details, we introduce a novel strategy to distill only the useful information and stabilize the training. Specifically, we learn rich per-class prototype representations from noisy generated texts and dual pseudo-labels. Our experiments on 10 domain-specific datasets show that LatteCLIP outperforms pre-trained zero-shot methods by an average improvement of +4.74 points in top-1 accuracy and other state-of-the-art unsupervised methods by +3.45 points.

arxiv情報

著者 Anh-Quan Cao,Maximilian Jaritz,Matthieu Guillaumin,Raoul de Charette,Loris Bazzani
発行日 2024-10-10 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

Identifying and Addressing Delusions for Target-Directed Decision-Making

要約

私たちは、意思決定時の計画中に目標を生成し、行動を導き、評価中により良い一般化を達成する、目標指向エージェントに興味を持っています。
これらのエージェントの不適切なトレーニングは妄想を引き起こす可能性があります。エージェントはターゲットについて誤った信念を持つようになる可能性があり、それを適切に拒否することができず、望ましくない行動を引き起こし、分布外の一般化に損害を与えます。
注意深く管理された環境で直感的な例を使用してさまざまな種類の妄想を特定し、その原因を調査します。
私たちは、目標指向の RL エージェントを訓練するための主流のアプローチである後知恵の再ラベル付けによって訓練されたエージェントの妄想にどのように対処できるかを示します。
私たちは、妄想的行動を修正し、分布外の一般化を改善する上で、提案された解決策の有効性を経験的に検証します。

要約(オリジナル)

We are interested in target-directed agents, which produce targets during decision-time planning, to guide their behaviors and achieve better generalization during evaluation. Improper training of these agents can result in delusions: the agent may come to hold false beliefs about the targets, which cannot be properly rejected, leading to unwanted behaviors and damaging out-of-distribution generalization. We identify different types of delusions by using intuitive examples in carefully controlled environments, and investigate their causes. We demonstrate how delusions can be addressed for agents trained by hindsight relabeling, a mainstream approach in for training target-directed RL agents. We validate empirically the effectiveness of the proposed solutions in correcting delusional behaviors and improving out-of-distribution generalization.

arxiv情報

著者 Mingde Zhao,Tristan Sylvain,Doina Precup,Yoshua Bengio
発行日 2024-10-10 16:55:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

Quanda: An Interpretability Toolkit for Training Data Attribution Evaluation and Beyond

要約

近年、トレーニング データ アトリビューション (TDA) 手法が、ニューラル ネットワークの解釈可能性の有望な方向性として浮上しています。
TDA に関する研究は盛んですが、帰属の評価には限られた労力が費やされています。
従来の特徴帰属アプローチの評価指標の開発と同様に、さまざまなコンテキストにわたる TDA 手法の品質を評価するために、いくつかの独立した指標が提案されています。
しかし、体系的な比較を可能にする統一フレームワークの欠如により、TDA 手法への信頼が制限され、その広範な採用が妨げられています。
この研究ギャップに対処するために、TDA 手法の評価を容易にするために設計された Python ツールキットである Quanda を紹介します。
Quanda は、包括的な評価メトリクスのセットを提供するだけでなく、さまざまなリポジトリにわたる既存の TDA 実装とシームレスに統合するための統一インターフェイスを提供し、体系的なベンチマークを可能にします。
このツールキットはユーザーフレンドリーで、徹底的にテストされ、十分に文書化されており、PyPi および https://github.com/dilyabareeva/quanda でオープンソース ライブラリとして利用できます。

要約(オリジナル)

In recent years, training data attribution (TDA) methods have emerged as a promising direction for the interpretability of neural networks. While research around TDA is thriving, limited effort has been dedicated to the evaluation of attributions. Similar to the development of evaluation metrics for traditional feature attribution approaches, several standalone metrics have been proposed to evaluate the quality of TDA methods across various contexts. However, the lack of a unified framework that allows for systematic comparison limits trust in TDA methods and stunts their widespread adoption. To address this research gap, we introduce Quanda, a Python toolkit designed to facilitate the evaluation of TDA methods. Beyond offering a comprehensive set of evaluation metrics, Quanda provides a uniform interface for seamless integration with existing TDA implementations across different repositories, thus enabling systematic benchmarking. The toolkit is user-friendly, thoroughly tested, well-documented, and available as an open-source library on PyPi and under https://github.com/dilyabareeva/quanda.

arxiv情報

著者 Dilyara Bareeva,Galip Ümit Yolcu,Anna Hedström,Niklas Schmolenski,Thomas Wiegand,Wojciech Samek,Sebastian Lapuschkin
発行日 2024-10-10 16:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

Context-Aware Command Understanding for Tabletop Scenarios

要約

この論文では、卓上シナリオで人間の自然なコマンドを解釈するように設計された新しいハイブリッド アルゴリズムを紹介します。
音声、ジェスチャー、シーンのコンテキストなどの複数の情報ソースを統合することで、システムはロボットに対する実行可能な指示を抽出し、関連するオブジェクトとアクションを識別します。
このシステムは、事前定義されたオブジェクト モデルに依存せずにゼロショット方式で動作するため、さまざまな環境での柔軟で適応的な使用が可能になります。
複数の深層学習モデルの統合を評価し、現実世界のロボット設定への展開への適合性を評価します。
私たちのアルゴリズムは、言語処理と視覚的根拠を組み合わせて、さまざまなタスクにわたって堅牢に実行します。
さらに、システムの評価に使用されるビデオ録画の小規模なデータセットをリリースします。
このデータセットは、人間がロボットに自然言語で指示を与える現実世界のインタラクションをキャプチャしており、人間とロボットのインタラクションに関する将来の研究に貢献します。
このシステムの長所と限界について、特にマルチモーダルなコマンド解釈を処理する方法と、安全で説明可能な意思決定を実現するための記号ロボット フレームワークに統合できる機能に焦点を当てて説明します。

要約(オリジナル)

This paper presents a novel hybrid algorithm designed to interpret natural human commands in tabletop scenarios. By integrating multiple sources of information, including speech, gestures, and scene context, the system extracts actionable instructions for a robot, identifying relevant objects and actions. The system operates in a zero-shot fashion, without reliance on predefined object models, enabling flexible and adaptive use in various environments. We assess the integration of multiple deep learning models, evaluating their suitability for deployment in real-world robotic setups. Our algorithm performs robustly across different tasks, combining language processing with visual grounding. In addition, we release a small dataset of video recordings used to evaluate the system. This dataset captures real-world interactions in which a human provides instructions in natural language to a robot, a contribution to future research on human-robot interaction. We discuss the strengths and limitations of the system, with particular focus on how it handles multimodal command interpretation, and its ability to be integrated into symbolic robotic frameworks for safe and explainable decision-making.

arxiv情報

著者 Paul Gajewski,Antonio Galiza Cerdeira Gonzalez,Bipin Indurkhya
発行日 2024-10-10 10:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Reliable Probabilistic Human Trajectory Prediction for Autonomous Applications

要約

車両やロボットなどの自律システムでは、人間と機械の安全なインタラクションのために、周囲の物体の将来の位置と動きに関する初期情報を得るために、信頼性が高く、正確で、高速で、リソース効率が高く、スケーラブルで低遅延の軌道予測が必要です。
さらに、安全な経路計画を提供するために、リスク評価の予測の不確実性を知る必要があります。
この論文では、長期短期記憶と混合密度ネットワークを組み合わせて、これらの要件に対処する軽量な方法を紹介します。
私たちの方法は、後続のリスク管理アプリケーションをサポートするために、位置の不確実性の信頼レベル推定を含む確率分布を予測し、低電力組み込みプラットフォーム上で実行されます。
自動運転車アプリケーションにおける人間の軌跡予測の必須要件について議論し、複数の交通関連データセットを使用して手法のパフォーマンスを実証します。
さらに、信頼性と鮮明さのメトリクスについて説明し、モデルの予測と不確実性評価の正確性と堅牢性を保証するためにそれらがいかに重要であるかを示します。
これらの重要な評価は、これまでのところ正当な理由もなくほとんど注目されていません。
私たちのアプローチは、現実世界への適用性に完全に焦点を当てています。
予測の不確実性とモデルの信頼性を検証することは、自律的な現実世界のアプリケーションの中心です。
私たちのフレームワークとコードは、https://github.com/kav-institute/mdn_trajectory_forecasting から入手できます。

要約(オリジナル)

Autonomous systems, like vehicles or robots, require reliable, accurate, fast, resource-efficient, scalable, and low-latency trajectory predictions to get initial knowledge about future locations and movements of surrounding objects for safe human-machine interaction. Furthermore, they need to know the uncertainty of the predictions for risk assessment to provide safe path planning. This paper presents a lightweight method to address these requirements, combining Long Short-Term Memory and Mixture Density Networks. Our method predicts probability distributions, including confidence level estimations for positional uncertainty to support subsequent risk management applications and runs on a low-power embedded platform. We discuss essential requirements for human trajectory prediction in autonomous vehicle applications and demonstrate our method’s performance using multiple traffic-related datasets. Furthermore, we explain reliability and sharpness metrics and show how important they are to guarantee the correctness and robustness of a model’s predictions and uncertainty assessments. These essential evaluations have so far received little attention for no good reason. Our approach focuses entirely on real-world applicability. Verifying prediction uncertainties and a model’s reliability are central to autonomous real-world applications. Our framework and code are available at: https://github.com/kav-institute/mdn_trajectory_forecasting.

arxiv情報

著者 Manuel Hetzel,Hannes Reichert,Konrad Doll,Bernhard Sick
発行日 2024-10-10 07:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

要約

視覚言語ナビゲーション (VLN) として知られる、言語指示と視覚情報に基づいて目的の場所に移動できるエージェントの開発は、幅広い関心を集めています。
ほとんどの研究は地上のエージェントに焦点を当てていますが、UAV ベースの VLN はまだ比較的研究されていません。
UAV ビジョン言語ナビゲーションにおける最近の取り組みでは、主に地上ベースの VLN 設定が採用されており、事前に定義された個別のアクション スペースに依存し、エージェントの移動ダイナミクスに固有の差異や、地上環境と航空環境の間のナビゲーション タスクの複雑さは無視されています。
これらの格差と課題に対処するために、私たちはプラットフォーム、ベンチマーク、方法論の 3 つの観点からソリューションを提案します。
VLN タスクで現実的な UAV 軌道シミュレーションを可能にするために、多様な環境、現実的な飛行制御、広範なアルゴリズム サポートを特徴とする OpenUAV プラットフォームを提案します。
さらに、このプラットフォーム上で約 12,000 の軌道から構成されるターゲット指向の VLN データセットを構築し、現実的な UAV VLN タスク用に特別に設計された最初のデータセットとして機能します。
複雑な航空環境によってもたらされる課題に取り組むために、私たちは、UAV-Need-Help と呼ばれるアシスタントガイド付きの UAV オブジェクト検索ベンチマークを提案します。これは、UAV が現実的な VLN タスクをより適切に達成できるように、さまざまなレベルのガイダンス情報を提供します。
また、マルチビュー画像、タスクの説明、およびアシスタントの指示が与えられると、MLLM のマルチモーダル理解機能を活用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を実行する UAV ナビゲーション LLM も提案します。
私たちの方法の評価結果はベースラインモデルを大幅に上回っていますが、私たちの結果と人間のオペレーターによって達成された結果との間には依然としてかなりのギャップがあり、UAV-Need-Helpタスクによってもたらされる課題を浮き彫りにしています。

要約(オリジナル)

Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.

arxiv情報

著者 Xiangyu Wang,Donglin Yang,Ziqin Wang,Hohin Kwan,Jinyu Chen,Wenjun Wu,Hongsheng Li,Yue Liao,Si Liu
発行日 2024-10-10 05:02:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems

要約

この論文では、無向の定常グラフ上で対話するマルチエージェント システム (MAS) の分散到達可能集合計算の問題を検討します。
このような MAS に対する完全な状態フィードバック制御入力は、現在のエージェントの状態だけでなく、その隣接エージェントの状態にも依存します。
ただし、ほとんどの MAS アプリケーションでは、ダイナミクスは個々のエージェントによって隠蔽されます。
このため、完全に分散された方法での到達可能な集合の計算は困難な問題になります。
ポリトピック到達可能集合近似のアイデアを利用し、それを MAS セットアップに一般化します。
結果として生じる部分問題を完全に分散された方法で定式化し、関連する計算の収束保証を提供します。
提案されたアルゴリズムの収束は、静的 MAS グラフと特定の制限の下での時間変化グラフの 2 つのケースで証明されます。

要約(オリジナル)

In this paper, we consider the problem of distributed reachable set computation for multi-agent systems (MASs) interacting over an undirected, stationary graph. A full state-feedback control input for such MASs depends no only on the current agent’s state, but also of its neighbors. However, in most MAS applications, the dynamics are obscured by individual agents. This makes reachable set computation, in a fully distributed manner, a challenging problem. We utilize the ideas of polytopic reachable set approximation and generalize it to a MAS setup. We formulate the resulting sub-problems in a fully distributed manner and provide convergence guarantees for the associated computations. The proposed algorithm’s convergence is proved for two cases: static MAS graphs, and time-varying graphs under certain restrictions.

arxiv情報

著者 Omanshu Thapliyal,Shanelle Clarke,Inseok Hwang
発行日 2024-10-10 02:27:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Grounding Robot Policies with Visuomotor Language Guidance

要約

自然言語処理とコンピューター ビジョンの分野における最近の進歩により、大規模なインターネット データから世界の根底にある力学を理解する上で大きな可能性が示されています。
しかし、人間とロボットのインタラクションが不足していることと、現実世界のロボット データの大規模なデータセットが不足していることを考慮すると、この知識をロボット システムに変換することは依然として未解決の課題です。
行動クローニングや強化学習などのこれまでのロボット学習アプローチは、人間のデモンストレーションから、または特定の環境でゼロからロボットのスキルを学習する優れた能力を示してきました。
ただし、これらのアプローチでは、タスク固有のデモンストレーションや複雑なシミュレーション環境の設計が必要になることが多く、新しい設定に対する一般化可能で堅牢なポリシーの開発が制限されます。
これらの制限に対処することを目的として、視覚運動に基づいた言語ガイダンスを使用して現在のロボットとその環境の制約を考慮し、現在のコンテキストにロボットのポリシーを根付かせるためのエージェントベースのフレームワークを提案します。
提案されたフレームワークは、特定の役割、つまり高レベルのアドバイザー、視覚的グラウンディング、モニタリング、ロボット エージェント向けに設計された一連の会話型エージェントで構成されています。
基本ポリシーが与えられると、エージェントは実行時に集合的にガイダンスを生成し、基本ポリシーのアクション分布をより望ましい将来の状態に向けてシフトします。
私たちのアプローチは、人間による追加のデモンストレーションや広範な調査を必要とせずに、シミュレーションと現実世界の実験の両方で大幅に高い成功率を達成するために操作ポリシーを効果的に導くことができることを実証します。
https://sites.google.com/view/motorcortex/home でビデオを投影します。

要約(オリジナル)

Recent advances in the fields of natural language processing and computer vision have shown great potential in understanding the underlying dynamics of the world from large-scale internet data. However, translating this knowledge into robotic systems remains an open challenge, given the scarcity of human-robot interactions and the lack of large-scale datasets of real-world robotic data. Previous robot learning approaches such as behavior cloning and reinforcement learning have shown great capabilities in learning robotic skills from human demonstrations or from scratch in specific environments. However, these approaches often require task-specific demonstrations or designing complex simulation environments, which limits the development of generalizable and robust policies for new settings. Aiming to address these limitations, we propose an agent-based framework for grounding robot policies to the current context, considering the constraints of a current robot and its environment using visuomotor-grounded language guidance. The proposed framework is composed of a set of conversational agents designed for specific roles — namely, high-level advisor, visual grounding, monitoring, and robotic agents. Given a base policy, the agents collectively generate guidance at run time to shift the action distribution of the base policy towards more desirable future states. We demonstrate that our approach can effectively guide manipulation policies to achieve significantly higher success rates both in simulation and in real-world experiments without the need for additional human demonstrations or extensive exploration. Project videos at https://sites.google.com/view/motorcortex/home.

arxiv情報

著者 Arthur Bucker,Pablo Ortega-Kral,Jonathan Francis,Jean Oh
発行日 2024-10-10 04:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

HBTP: Heuristic Behavior Tree Planning with Large Language Model Reasoning

要約

ビヘイビア ツリー (BT) は、そのモジュール性、反応性、堅牢性により、ロボット工学における制御構造としてますます人気が高まっています。
BT 生成方法に関しては、BT 計画は信頼性の高い BT を生成する可能性を示しています。
ただし、BT 計画のスケーラビリティは、主にドメイン知識の不足が原因で、複雑なシナリオでの計画時間が長くなることで制限されることがよくあります。
対照的に、事前トレーニングされた大規模言語モデル (LLM) は、さまざまなドメインにわたってタスク推論機能を実証していますが、その計画の正確さと安全性は依然として不確実です。
この論文では、BT 計画を LLM 推論と統合し、BT 生成のための信頼性が高く効率的なフレームワークであるヒューリスティック動作ツリー計画 (HBTP) を導入することを提案します。
HBTP の重要なアイデアは、タスク固有の推論に LLM を活用してヒューリスティック パスを生成し、BT 計画がそのパスに従って効率的に拡張できるようにすることです。
まず、ヒューリスティック BT 拡張プロセスと、それぞれ最適な計画と満足のいく計画のために設計された 2 つのヒューリスティック バリアントを紹介します。
次に、アクション空間の枝刈りや反射フィードバックなど、LLM 推論の不正確さに対処し、推論の精度と計画効率の両方をさらに向上させる方法を提案します。
実験では HBTP の理論的限界を実証し、4 つのデータセットの結果により、日常のサービス ロボット アプリケーションにおけるその実際の有効性が確認されています。

要約(オリジナル)

Behavior Trees (BTs) are increasingly becoming a popular control structure in robotics due to their modularity, reactivity, and robustness. In terms of BT generation methods, BT planning shows promise for generating reliable BTs. However, the scalability of BT planning is often constrained by prolonged planning times in complex scenarios, largely due to a lack of domain knowledge. In contrast, pre-trained Large Language Models (LLMs) have demonstrated task reasoning capabilities across various domains, though the correctness and safety of their planning remain uncertain. This paper proposes integrating BT planning with LLM reasoning, introducing Heuristic Behavior Tree Planning (HBTP)-a reliable and efficient framework for BT generation. The key idea in HBTP is to leverage LLMs for task-specific reasoning to generate a heuristic path, which BT planning can then follow to expand efficiently. We first introduce the heuristic BT expansion process, along with two heuristic variants designed for optimal planning and satisficing planning, respectively. Then, we propose methods to address the inaccuracies of LLM reasoning, including action space pruning and reflective feedback, to further enhance both reasoning accuracy and planning efficiency. Experiments demonstrate the theoretical bounds of HBTP, and results from four datasets confirm its practical effectiveness in everyday service robot applications.

arxiv情報

著者 Yishuai Cai,Xinglin Chen,Yunxin Mao,Minglong Li,Shaowu Yang,Wenjing Yang,Ji Wang
発行日 2024-10-10 02:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする