HBTP: Heuristic Behavior Tree Planning with Large Language Model Reasoning

要約

ビヘイビア ツリー (BT) は、そのモジュール性、反応性、堅牢性により、ロボット工学における制御構造としてますます人気が高まっています。
BT 生成方法に関しては、BT 計画は信頼性の高い BT を生成する可能性を示しています。
ただし、BT 計画のスケーラビリティは、主にドメイン知識の不足が原因で、複雑なシナリオでの計画時間が長くなることで制限されることがよくあります。
対照的に、事前トレーニングされた大規模言語モデル (LLM) は、さまざまなドメインにわたってタスク推論機能を実証していますが、その計画の正確さと安全性は依然として不確実です。
この論文では、BT 計画を LLM 推論と統合し、BT 生成のための信頼性が高く効率的なフレームワークであるヒューリスティック動作ツリー計画 (HBTP) を導入することを提案します。
HBTP の重要なアイデアは、タスク固有の推論に LLM を活用してヒューリスティック パスを生成し、BT 計画がそのパスに従って効率的に拡張できるようにすることです。
まず、ヒューリスティック BT 拡張プロセスと、それぞれ最適な計画と満足のいく計画のために設計された 2 つのヒューリスティック バリアントを紹介します。
次に、アクション空間の枝刈りや反射フィードバックなど、LLM 推論の不正確さに対処し、推論の精度と計画効率の両方をさらに向上させる方法を提案します。
実験では HBTP の理論的限界を実証し、4 つのデータセットの結果により、日常のサービス ロボット アプリケーションにおけるその実際の有効性が確認されています。

要約(オリジナル)

Behavior Trees (BTs) are increasingly becoming a popular control structure in robotics due to their modularity, reactivity, and robustness. In terms of BT generation methods, BT planning shows promise for generating reliable BTs. However, the scalability of BT planning is often constrained by prolonged planning times in complex scenarios, largely due to a lack of domain knowledge. In contrast, pre-trained Large Language Models (LLMs) have demonstrated task reasoning capabilities across various domains, though the correctness and safety of their planning remain uncertain. This paper proposes integrating BT planning with LLM reasoning, introducing Heuristic Behavior Tree Planning (HBTP)-a reliable and efficient framework for BT generation. The key idea in HBTP is to leverage LLMs for task-specific reasoning to generate a heuristic path, which BT planning can then follow to expand efficiently. We first introduce the heuristic BT expansion process, along with two heuristic variants designed for optimal planning and satisficing planning, respectively. Then, we propose methods to address the inaccuracies of LLM reasoning, including action space pruning and reflective feedback, to further enhance both reasoning accuracy and planning efficiency. Experiments demonstrate the theoretical bounds of HBTP, and results from four datasets confirm its practical effectiveness in everyday service robot applications.

arxiv情報

著者 Yishuai Cai,Xinglin Chen,Yunxin Mao,Minglong Li,Shaowu Yang,Wenjing Yang,Ji Wang
発行日 2024-10-10 02:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

要約

生成モデルの最近の進歩により、素晴らしいコンテンツを生成する際の顕著な機能が実証されました。
ただし、そのほとんどは独自の高品質データでトレーニングされており、一部のモデルはパラメーターを差し控え、アクセス可能なアプリケーション プログラミング インターフェイス (API) のみを提供するため、下流タスクでの利点が制限されます。
公開されているリソースを使用して、高度なモデルに匹敵するテキストから画像への生成モデルをトレーニングする実現可能性を検討するために、EvolveDirector を紹介します。
このフレームワークは、パブリック API を通じて高度なモデルと対話し、基本モデルをトレーニングするためのテキストと画像のデータのペアを取得します。
広範なデータを用いた実験により、高度なモデルの生成データでトレーニングされたモデルがその生成能力を近似できることが示されました。
ただし、1,000万以上の大規模サンプルが必要です。
これにより、時間、計算リソース、特に有料 API の呼び出しに関連するコストが大幅に増加します。
この問題に対処するために、事前トレーニングされた大規模ビジョン言語モデル (VLM) を活用して、基本モデルの進化をガイドします。
VLM はトレーニング中にベース モデルを継続的に評価し、識別、拡張、削除、突然変異の操作によってトレーニング データセットを動的に更新および改良します。
実験結果は、このパラダイムにより必要なデータ量が大幅に削減されることを示しています。
さらに、複数の高度なモデルに近づくと、EvolveDirector はそれらのモデルによって生成された最良のサンプルを選択して、強力でバランスのとれた能力を学習できます。
最終的にトレーニングされたモデル Edgen は、これらの高度なモデルよりも優れたパフォーマンスを発揮することが実証されています。
コードとモデルの重みは https://github.com/showlab/EvolveDirector で入手できます。

要約(オリジナル)

Recent advancements in generation models have showcased remarkable capabilities in generating fantastic content. However, most of them are trained on proprietary high-quality data, and some models withhold their parameters and only provide accessible application programming interfaces (APIs), limiting their benefits for downstream tasks. To explore the feasibility of training a text-to-image generation model comparable to advanced models using publicly available resources, we introduce EvolveDirector. This framework interacts with advanced models through their public APIs to obtain text-image data pairs to train a base model. Our experiments with extensive data indicate that the model trained on generated data of the advanced model can approximate its generation capability. However, it requires large-scale samples of 10 million or more. This incurs significant expenses in time, computational resources, and especially the costs associated with calling fee-based APIs. To address this problem, we leverage pre-trained large vision-language models (VLMs) to guide the evolution of the base model. VLM continuously evaluates the base model during training and dynamically updates and refines the training dataset by the discrimination, expansion, deletion, and mutation operations. Experimental results show that this paradigm significantly reduces the required data volume. Furthermore, when approaching multiple advanced models, EvolveDirector can select the best samples generated by them to learn powerful and balanced abilities. The final trained model Edgen is demonstrated to outperform these advanced models. The code and model weights are available at https://github.com/showlab/EvolveDirector.

arxiv情報

著者 Rui Zhao,Hangjie Yuan,Yujie Wei,Shiwei Zhang,Yuchao Gu,Lingmin Ran,Xiang Wang,Zhangjie Wu,Junhao Zhang,Yingya Zhang,Mike Zheng Shou
発行日 2024-10-10 04:03:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Multimodal Active Measurement for Human Mesh Recovery in Close Proximity

要約

物理的な人間とロボットの相互作用 (pHRI) の場合、ロボットは対象者の正確な体の姿勢を推定する必要があります。
ただし、これらの pHRI シナリオでは、対象者は物理的な相互作用のためにロボットの近くにいる必要があるため、ロボットは装備されたカメラで対象者の身体を完全に観察することはできません。
この距離が近いと、深刻な切断やオクルージョンが発生し、人間の姿勢推定の精度が低下します。
この困難な環境での精度を向上させるために、2D LiDAR などのタッチ センサーや測距センサーを備えたカメラのアクティブ測定およびセンサー フュージョン フレームワークを提案します。
タッチセンサーと測距センサーの測定値はまばらですが、人体の部位の位置を特定するための信頼性が高く有益な手がかりとなります。
当社のアクティブな測定プロセスでは、カメラの視点とセンサーの配置が動的に最適化され、切断や閉塞と密接に関係する推定の不確実性が高い身体部位を測定します。
センサー フュージョン プロセスでは、タッチ センサーと測距センサーの測定値がカメラ ベースの推定値よりも信頼性が高いと仮定して、推定された姿勢を測定点に向けて位置合わせすることで、センサーの測定値をカメラ ベースの推定された姿勢に融合します。
私たちが提案した方法は、シミュレートされたアクティブな測定を使用した標準的なオクルージョンベンチマークで以前の方法を上回りました。
さらに、私たちの方法は、毛布による遮蔽などの実際的な制約がある場合でも、実際のロボットを使用して人間のポーズを確実に推定しました。

要約(オリジナル)

For physical human-robot interactions (pHRI), a robot needs to estimate the accurate body pose of a target person. However, in these pHRI scenarios, the robot cannot fully observe the target person’s body with equipped cameras because the target person must be close to the robot for physical interaction. This close distance leads to severe truncation and occlusions and thus results in poor accuracy of human pose estimation. For better accuracy in this challenging environment, we propose an active measurement and sensor fusion framework of the equipped cameras with touch and ranging sensors such as 2D LiDAR. Touch and ranging sensor measurements are sparse but reliable and informative cues for localizing human body parts. In our active measurement process, camera viewpoints and sensor placements are dynamically optimized to measure body parts with higher estimation uncertainty, which is closely related to truncation or occlusion. In our sensor fusion process, assuming that the measurements of touch and ranging sensors are more reliable than the camera-based estimations, we fuse the sensor measurements to the camera-based estimated pose by aligning the estimated pose towards the measured points. Our proposed method outperformed previous methods on the standard occlusion benchmark with simulated active measurement. Furthermore, our method reliably estimated human poses using a real robot, even with practical constraints such as occlusion by blankets.

arxiv情報

著者 Takahiro Maeda,Keisuke Takeshita,Norimichi Ukita,Kazuhito Tanaka
発行日 2024-10-08 19:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems

要約

この論文では、無向の定常グラフ上で対話するマルチエージェント システム (MAS) の分散到達可能集合計算の問題を検討します。
このような MAS に対する完全な状態フィードバック制御入力は、現在のエージェントの状態だけでなく、その隣接エージェントの状態にも依存します。
ただし、ほとんどの MAS アプリケーションでは、ダイナミクスは個々のエージェントによって隠蔽されます。
このため、完全に分散された方法での到達可能な集合の計算は困難な問題になります。
ポリトピック到達可能集合近似のアイデアを利用し、それを MAS セットアップに一般化します。
結果として生じる部分問題を完全に分散された方法で定式化し、関連する計算の収束保証を提供します。
提案されたアルゴリズムの収束は、静的 MAS グラフと特定の制限の下での時間変化グラフの 2 つのケースで証明されます。

要約(オリジナル)

In this paper, we consider the problem of distributed reachable set computation for multi-agent systems (MASs) interacting over an undirected, stationary graph. A full state-feedback control input for such MASs depends no only on the current agent’s state, but also of its neighbors. However, in most MAS applications, the dynamics are obscured by individual agents. This makes reachable set computation, in a fully distributed manner, a challenging problem. We utilize the ideas of polytopic reachable set approximation and generalize it to a MAS setup. We formulate the resulting sub-problems in a fully distributed manner and provide convergence guarantees for the associated computations. The proposed algorithm’s convergence is proved for two cases: static MAS graphs, and time-varying graphs under certain restrictions.

arxiv情報

著者 Omanshu Thapliyal,Shanelle Clarke,Inseok Hwang
発行日 2024-10-08 19:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors

要約

自律飛行における大きな課題は未知の外乱であり、特に障害物が多い環境では、安全性が脅かされ、衝突につながる可能性があります。
この論文では、自律飛行用に設計された外乱を認識した動作計画および制御フレームワークについて説明します。
このフレームワークは、外乱を認識するモーション プランナーと追跡コントローラーという 2 つの主要なコンポーネントで構成されています。
外乱を認識するモーション プランナーは、予測制御スキームと、オンラインで適応される外乱の学習済みモデルで構成されます。
トラッキング コントローラーは、外乱を考慮した動作計画に関して、障害物付近のクアッドローターの動作に安全限界を提供するために、収縮制御手法を使用して設計されています。
最後に、このアルゴリズムは、クアローターが強い横風と地面に起因する外乱に直面するシミュレーション シナリオでテストされます。

要約(オリジナル)

A major challenge in autonomous flights is unknown disturbances, which can jeopardize safety and lead to collisions, especially in obstacle-rich environments. This paper presents a disturbance-aware motion planning and control framework designed for autonomous aerial flights. The framework is composed of two key components: a disturbance-aware motion planner and a tracking controller. The disturbance-aware motion planner consists of a predictive control scheme and a learned model of disturbances that is adapted online. The tracking controller is designed using contraction control methods to provide safety bounds on the quadrotor behaviour in the vicinity of the obstacles with respect to the disturbance-aware motion plan. Finally, the algorithm is tested in simulation scenarios with a quadrotor facing strong crosswind and ground-induced disturbances.

arxiv情報

著者 Dženan Lapandić,Fengze Xie,Christos K. Verginis,Soon-Jo Chung,Dimos V. Dimarogonas,Bo Wahlberg
発行日 2024-10-08 20:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Solving Multi-Goal Robotic Tasks with Decision Transformer

要約

人工知能はロボット工学において重要な役割を果たしており、強化学習 (RL) はロボット制御の最も有望なアプローチの 1 つとして浮上しています。
しかし、いくつかの重要な課題がその広範な応用を妨げています。
まず、多くの RL 手法はオンライン学習に依存しており、これには現実世界のハードウェアまたは高度なシミュレーション環境が必要ですが、どちらもコストと時間がかかり、非現実的です。
オフライン強化学習は、物理的なロボットやシミュレーションに継続的にアクセスせずにモデルをトレーニングできるソリューションを提供します。
2 番目の課題は、ロボットが複数の目標を同時に達成する必要がある複数の目標タスクを学習することです。
モデルはさまざまな目標にわたって一般化する必要があるため、トレーニング プロセスがさらに複雑になります。
同時に、トランスフォーマー アーキテクチャは、強化学習を含むさまざまな分野で大きな人気を得ています。
しかし、オフライン トレーニング、複数目標学習、トランスフォーマー ベースのアーキテクチャを効果的に組み合わせた既存の方法はありません。
この論文では、ロボット工学におけるオフラインのマルチゴール強化学習にデシジョントランスフォーマーアーキテクチャを新たに適応させたものを導入することで、これらの課題に対処します。
私たちのアプローチは、目標固有の情報を意思決定トランスフォーマーに統合し、オフライン設定で複雑なタスクを処理できるようにします。
私たちの方法を検証するために、シミュレーションで Panda ロボット プラットフォームを使用して、新しいオフライン強化学習データセットを開発しました。
私たちの広範な実験により、意思決定変換器が最先端のオンライン強化学習手法を上回るパフォーマンスを発揮できることが実証されました。

要約(オリジナル)

Artificial intelligence plays a crucial role in robotics, with reinforcement learning (RL) emerging as one of the most promising approaches for robot control. However, several key challenges hinder its broader application. First, many RL methods rely on online learning, which requires either real-world hardware or advanced simulation environments–both of which can be costly, time-consuming, and impractical. Offline reinforcement learning offers a solution, enabling models to be trained without ongoing access to physical robots or simulations. A second challenge is learning multi-goal tasks, where robots must achieve multiple objectives simultaneously. This adds complexity to the training process, as the model must generalize across different goals. At the same time, transformer architectures have gained significant popularity across various domains, including reinforcement learning. Yet, no existing methods effectively combine offline training, multi-goal learning, and transformer-based architectures. In this paper, we address these challenges by introducing a novel adaptation of the decision transformer architecture for offline multi-goal reinforcement learning in robotics. Our approach integrates goal-specific information into the decision transformer, allowing it to handle complex tasks in an offline setting. To validate our method, we developed a new offline reinforcement learning dataset using the Panda robotic platform in simulation. Our extensive experiments demonstrate that the decision transformer can outperform state-of-the-art online reinforcement learning methods.

arxiv情報

著者 Paul Gajewski,Dominik Żurek,Marcin Pietroń,Kamil Faber
発行日 2024-10-08 20:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Context-Aware Command Understanding for Tabletop Scenarios

要約

この論文では、卓上シナリオで人間の自然なコマンドを解釈するように設計された新しいハイブリッド アルゴリズムを紹介します。
音声、ジェスチャー、シーンのコンテキストなどの複数の情報ソースを統合することで、システムはロボットに対する実行可能な指示を抽出し、関連するオブジェクトとアクションを識別します。
このシステムは、事前定義されたオブジェクト モデルに依存せずにゼロショット方式で動作するため、さまざまな環境での柔軟で適応的な使用が可能になります。
複数の深層学習モデルの統合を評価し、現実世界のロボット設定への展開への適合性を評価します。
私たちのアルゴリズムは、言語処理と視覚的根拠を組み合わせて、さまざまなタスクにわたって堅牢に実行します。
さらに、システムの評価に使用されるビデオ録画の小規模なデータセットをリリースします。
このデータセットは、人間がロボットに自然言語で指示を与える現実世界のインタラクションをキャプチャしており、人間とロボットのインタラクションに関する将来の研究に貢献します。
このシステムの長所と限界について、特にマルチモーダルなコマンド解釈を処理する方法と、安全で説明可能な意思決定を実現するための記号ロボット フレームワークに統合できる機能に焦点を当てて説明します。

要約(オリジナル)

This paper presents a novel hybrid algorithm designed to interpret natural human commands in tabletop scenarios. By integrating multiple sources of information, including speech, gestures, and scene context, the system extracts actionable instructions for a robot, identifying relevant objects and actions. The system operates in a zero-shot fashion, without reliance on predefined object models, enabling flexible and adaptive use in various environments. We assess the integration of multiple deep learning models, evaluating their suitability for deployment in real-world robotic setups. Our algorithm performs robustly across different tasks, combining language processing with visual grounding. In addition, we release a small dataset of video recordings used to evaluate the system. This dataset captures real-world interactions in which a human provides instructions in natural language to a robot, a contribution to future research on human-robot interaction. We discuss the strengths and limitations of the system, with particular focus on how it handles multimodal command interpretation, and its ability to be integrated into symbolic robotic frameworks for safe and explainable decision-making.

arxiv情報

著者 Paul Gajewski,Antonio Galiza Cerdeira Gonzalez,Bipin Indurkhya
発行日 2024-10-08 20:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Cooperative and Asynchronous Transformer-based Mission Planning for Heterogeneous Teams of Mobile Robots

要約

捜索や救助などのタスクのために、移動ロボットの異種チームを調整することは非常に困難です。
これは、エージェントの非同期操作、制約された通信、および限られた計算リソースを伴う、このような環境における認識、意思決定、および計画の複雑さによるものです。
このペーパーでは、マルチエージェント強化学習 (MARL) を活用して、異種のセンシング、動作、および作動機能を備えたエージェントを効果的に調整する、協調的かつ非同期のトランスフォーマーベースのミッション計画 (CATMiP) フレームワークについて説明します。
このフレームワークでは、クラスベースのマクロアクション分散部分観察マルコフ決定プロセス (CMD-POMDP) モデルが導入され、マクロアクションを介してさまざまなエージェント クラス間の非同期意思決定を処理します。
また、Multi-Agent Transformer (MAT) アーキテクチャを拡張して、エージェント間の分散アドホック通信を容易にします。
CATMiP は、ミッションの複雑さや通信の制約に簡単に適応し、さまざまな環境の規模やチーム構成に合わせて拡張できます。
シミュレーションでは、厳しい通信制約下でも、その拡張性と、2 つのクラスの探検家エージェントと救助エージェントと協力してミッション目標を達成できる能力を実証しています。
コードは https://github.com/mylad13/CATMiP で入手できます。

要約(オリジナル)

Coordinating heterogeneous teams of mobile robots for tasks such as search and rescue is highly challenging. This is due to the complexities of perception, decision making and planning in such environments, with agents’ non-synchronous operation, constrained communication, and limited computational resources. This paper presents the Cooperative and Asynchronous Transformer-based Mission Planning (CATMiP) framework, which leverages multi-agent reinforcement learning (MARL) to effectively coordinate agents with heterogeneous sensing, motion, and actuation capabilities. The framework introduces a Class-based Macro-Action Decentralized Partially Observable Markov Decision Process (CMD-POMDP) model to handle asynchronous decision-making among different agent classes via macro-actions. It also extends the Multi-Agent Transformer (MAT) architecture to facilitate distributed, ad hoc communication among the agents. CATMiP easily adapts to mission complexities and communication constraints, and scales to varying environment sizes and team compositions. Simulations demonstrate its scalability and ability to achieve cooperative mission objectives with two classes of explorer and rescuer agents, even under severe communication constraints. The code is available at https://github.com/mylad13/CATMiP.

arxiv情報

著者 Milad Farjadnasab,Shahin Sirouspour
発行日 2024-10-08 21:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.11 | コメントする

Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions

要約

悪天候は、LiDAR やカメラなどのセンサーに影響を与え、自動運転車 (AV) の普及に大きな課題をもたらします。
Collaborative Perception (CP) は困難な状況での AV 知覚を改善しますが、既存の CP データセットには悪天候がありません。
これに対処するために、悪天候条件に焦点を当てた初のオープンソース合成 CP データセットである Adver-City を紹介します。
OpenCDA を使用した CARLA でシミュレートされたこのバージョンには、24,000 を超えるフレーム、890,000 を超える注釈、6 つの異なる気象条件 (晴天、小雨、大雨、霧、霧状の大雨、そして初めての天気) にわたる 110 のユニークなシナリオが含まれています。
合成 CP データセット、グレア。
歩行者や自転車を含む 6 つのオブジェクト カテゴリがあり、LiDAR、RGB およびセマンティック セグメンテーション カメラ、GNSS、IMU を備えた車両および路側ユニットからのデータを使用します。
実際の衝突レポートに基づいたそのシナリオは、物体の密度が異なる、密集したシーンと疎なシーンの両方で、悪天候や視界不良の状況に最も適切な道路構成を描写し、CP モデルの新しいテスト条件を可能にします。
データセットに対してベンチマークを実行したところ、気象条件により知覚モデルにとって困難な状況が生じ、マルチモーダル物体検出パフォーマンスが最大 19% 低下し、物体密度が LiDAR ベースの検出に最大 29% 影響を与えたことがわかりました。
データセット、コード、ドキュメントは https://labs.cs.queensu.ca/quarrg/datasets/adver-city/ で入手できます。

要約(オリジナル)

Adverse weather conditions pose a significant challenge to the widespread adoption of Autonomous Vehicles (AVs) by impacting sensors like LiDARs and cameras. Even though Collaborative Perception (CP) improves AV perception in difficult conditions, existing CP datasets lack adverse weather conditions. To address this, we introduce Adver-City, the first open-source synthetic CP dataset focused on adverse weather conditions. Simulated in CARLA with OpenCDA, it contains over 24 thousand frames, over 890 thousand annotations, and 110 unique scenarios across six different weather conditions: clear weather, soft rain, heavy rain, fog, foggy heavy rain and, for the first time in a synthetic CP dataset, glare. It has six object categories including pedestrians and cyclists, and uses data from vehicles and roadside units featuring LiDARs, RGB and semantic segmentation cameras, GNSS, and IMUs. Its scenarios, based on real crash reports, depict the most relevant road configurations for adverse weather and poor visibility conditions, varying in object density, with both dense and sparse scenes, allowing for novel testing conditions of CP models. Benchmarks run on the dataset show that weather conditions created challenging conditions for perception models, reducing multi-modal object detection performance by up to 19%, while object density affected LiDAR-based detection by up to 29%. The dataset, code and documentation are available at https://labs.cs.queensu.ca/quarrg/datasets/adver-city/.

arxiv情報

著者 Mateus Karvat,Sidney Givigi
発行日 2024-10-08 21:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする

Trajectory Improvement and Reward Learning from Comparative Language Feedback

要約

人間のフィードバックから学ぶことは、近年ロボット工学や自然言語処理などの分野で注目を集めています。
これまでの研究は主に比較という形で人間によるフィードバックに依存していましたが、言語はユーザーの好みについてより有益な洞察を提供する好ましい手段です。
この研究では、比較言語フィードバックを組み込んでロボットの軌道を反復的に改善し、人間の好みをエンコードする報酬関数を学習することを目指しています。
この目標を達成するために、私たちは軌跡データと言語フィードバックを統合する共有潜在空間を学習し、その後、学習した潜在空間を活用して軌跡を改善し、人間の好みを学習します。
私たちの知る限り、比較言語フィードバックを報酬学習に組み込んだのは私たちが初めてです。
私たちのシミュレーション実験は、学習された潜在空間の有効性と学習アルゴリズムの成功を実証しています。
また、人間を対象とした研究も行っており、報酬学習アルゴリズムが好みに基づく報酬学習と比較して平均で 23.9% 高い主観スコアを達成し、時間効率が 11.3% 高いことが示されており、この手法の優れたパフォーマンスが強調されています。
私たちのウェブサイトは https://liralab.usc.edu/comparative- language-フィードバック/ です。

要約(オリジナル)

Learning from human feedback has gained traction in fields like robotics and natural language processing in recent years. While prior works mostly rely on human feedback in the form of comparisons, language is a preferable modality that provides more informative insights into user preferences. In this work, we aim to incorporate comparative language feedback to iteratively improve robot trajectories and to learn reward functions that encode human preferences. To achieve this goal, we learn a shared latent space that integrates trajectory data and language feedback, and subsequently leverage the learned latent space to improve trajectories and learn human preferences. To the best of our knowledge, we are the first to incorporate comparative language feedback into reward learning. Our simulation experiments demonstrate the effectiveness of the learned latent space and the success of our learning algorithms. We also conduct human subject studies that show our reward learning algorithm achieves a 23.9% higher subjective score on average and is 11.3% more time-efficient compared to preference-based reward learning, underscoring the superior performance of our method. Our website is at https://liralab.usc.edu/comparative-language-feedback/

arxiv情報

著者 Zhaojing Yang,Miru Jun,Jeremy Tien,Stuart J. Russell,Anca Dragan,Erdem Bıyık
発行日 2024-10-08 22:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする