Human-Robot Dialogue Annotation for Multi-Modal Common Ground

要約

この論文では、協調的な自然言語対話に参加する自律システムが意味の次元にアクセスできるようにし、人間のパートナーとの共通点を可能にする、人間とロボットの対話データに注釈を付けた記号表現の開発について説明します。
共通点を確立するための特別な課題は、人間とロボットがなじみのない環境での共同ナビゲーションと探索タスクに従事するリモート対話 (災害救助や捜索救助活動で発生) で発生しますが、ロボットはすぐにそれを行うことができません。
通信上の制約が限られているため、高品質の視覚情報を共有できません。
対話に参加することはコミュニケーションの効果的な方法を提供しますが、オンデマンドまたは低品質の視覚情報を補充して共通点を確立することもできます。
このパラダイム内で、抽象意味表現の拡張である Dialogue-AMR アノテーションを通じて、対話内の 1 つの発話の命題意味論と非言語的力を捕捉します。
次に、複数フロアの対話構造アノテーション スキーマの開発において、話者フロア内および話者フロア全体でのさまざまな発話が互いにどのように関係するかというパターンを捕捉します。
最後に、共同作業者の環境理解の格差を克服するために、視覚的モダリティが対話に文脈情報を提供する方法について注釈を付け、分析し始めます。
最後に、物理ロボットが双方向の対話とナビゲーションで人間と自律的に関わることを可能にする、アノテーションから実装したユースケース、アーキテクチャ、システムについて説明します。

要約(オリジナル)

In this paper, we describe the development of symbolic representations annotated on human-robot dialogue data to make dimensions of meaning accessible to autonomous systems participating in collaborative, natural language dialogue, and to enable common ground with human partners. A particular challenge for establishing common ground arises in remote dialogue (occurring in disaster relief or search-and-rescue tasks), where a human and robot are engaged in a joint navigation and exploration task of an unfamiliar environment, but where the robot cannot immediately share high quality visual information due to limited communication constraints. Engaging in a dialogue provides an effective way to communicate, while on-demand or lower-quality visual information can be supplemented for establishing common ground. Within this paradigm, we capture propositional semantics and the illocutionary force of a single utterance within the dialogue through our Dialogue-AMR annotation, an augmentation of Abstract Meaning Representation. We then capture patterns in how different utterances within and across speaker floors relate to one another in our development of a multi-floor Dialogue Structure annotation schema. Finally, we begin to annotate and analyze the ways in which the visual modalities provide contextual information to the dialogue for overcoming disparities in the collaborators’ understanding of the environment. We conclude by discussing the use-cases, architectures, and systems we have implemented from our annotations that enable physical robots to autonomously engage with humans in bi-directional dialogue and navigation.

arxiv情報

著者 Claire Bonial,Stephanie M. Lukin,Mitchell Abrams,Anthony Baker,Lucia Donatelli,Ashley Foots,Cory J. Hayes,Cassidy Henry,Taylor Hudson,Matthew Marge,Kimberly A. Pollard,Ron Artstein,David Traum,Clare R. Voss
発行日 2024-11-19 19:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.RO, H.5.2 | コメントする

Anticipatory Planning for Performant Long-Lived Robot in Large-Scale Home-Like Environments

要約

私たちは、ロボットが永続的な大規模環境で一度に 1 つずつ与えられた一連のタスクを完了しなければならないという設定を検討します。
既存のタスク プランナーは、現在の行動が将来のタスクに及ぼす影響を考慮せず、目先の目標のみに焦点を当て、近視眼的に行動することがよくあります。
予測的計画は、現在のタスクの当面の計画コストと将来の後続タスクに関連する予想コストの共同目標を削減し、長期にわたるタスクの計画を改善するためのアプローチを提供します。
ただし、大規模な環境で予期的な計画を適用すると、関連する資産の数が膨大になるため、大きな課題が生じ、学習と計画のスケーラビリティに負担がかかります。
この研究では、大規模な現実的な環境に拡張するように設計されたモデルベースの予測タスク計画フレームワークを紹介します。
私たちのフレームワークは、特に 3D シーン グラフにヒントを得た表現を介して GNN を使用し、州の予想コストの推定に不可欠な環境の本質的な特性と、実用的な大規模な予測計画のためのサンプリング ベースの手順を学習します。
私たちの実験結果は、プランナーがタスク シーケンスのコストを家庭では 5.38%、レストランでは 31.5% 削減したことを示しています。
私たちのモデルを使用して事前に準備する時間が与えられた場合、タスク シーケンスのコストはそれぞれ 40.6% と 42.5% 削減されます。

要約(オリジナル)

We consider the setting where a robot must complete a sequence of tasks in a persistent large-scale environment, given one at a time. Existing task planners often operate myopically, focusing solely on immediate goals without considering the impact of current actions on future tasks. Anticipatory planning, which reduces the joint objective of the immediate planning cost of the current task and the expected cost associated with future subsequent tasks, offers an approach for improving long-lived task planning. However, applying anticipatory planning in large-scale environments presents significant challenges due to the sheer number of assets involved, which strains the scalability of learning and planning. In this research, we introduce a model-based anticipatory task planning framework designed to scale to large-scale realistic environments. Our framework uses a GNN in particular via a representation inspired by a 3D Scene Graph to learn the essential properties of the environment crucial to estimating the state’s expected cost and a sampling-based procedure for practical large-scale anticipatory planning. Our experimental results show that our planner reduces the cost of task sequence by 5.38% in home and 31.5% in restaurant settings. If given time to prepare in advance using our model reduces task sequence costs by 40.6% and 42.5%, respectively.

arxiv情報

著者 Md Ridwan Hossain Talukder,Raihan Islam Arnob,Gregory J. Stein
発行日 2024-11-19 19:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

SCOUT: A Situated and Multi-Modal Human-Robot Dialogue Corpus

要約

我々は、協調探索のタスク領域における人間とロボットの対話のマルチモーダルなコレクションである、トランザクション理解状況コーパス (SCOUT) を紹介します。
このコーパスは、人間の参加者が遠隔地にあるロボットに口頭で指示を出し、移動して周囲の情報を収集するという複数のオズの魔法使の実験から構築されました。
SCOUT には、278 の対話からの 89,056 の発話と 310,095 語が含まれており、対話ごとに平均 320 の発話が含まれます。
対話は、実験中に利用可能なマルチモーダル データ ストリーム (5,785 枚の画像と 30 枚の地図) と連携しています。
このコーパスには、発話内の話者の意図と意味を識別するための抽象意味表現と対話 AMR の注釈が付けられており、発話間の関係を追跡して対話構造のパターンを明らかにするためのトランザクション単位と関係が注釈付けされています。
私たちは、コーパスとその注釈が、自律的な人間とロボットのシステムを開発し、人間がロボットにどのように話すかという未解決の問題の研究を可能にするためにどのように使用されてきたかを説明します。
私たちは、特に環境に関する詳細を発見する必要があるナビゲーション タスクのコンテキストにおいて、自律的で定位置にある人間とロボットの対話の進歩を加速するために、このコーパスをリリースしました。

要約(オリジナル)

We introduce the Situated Corpus Of Understanding Transactions (SCOUT), a multi-modal collection of human-robot dialogue in the task domain of collaborative exploration. The corpus was constructed from multiple Wizard-of-Oz experiments where human participants gave verbal instructions to a remotely-located robot to move and gather information about its surroundings. SCOUT contains 89,056 utterances and 310,095 words from 278 dialogues averaging 320 utterances per dialogue. The dialogues are aligned with the multi-modal data streams available during the experiments: 5,785 images and 30 maps. The corpus has been annotated with Abstract Meaning Representation and Dialogue-AMR to identify the speaker’s intent and meaning within an utterance, and with Transactional Units and Relations to track relationships between utterances to reveal patterns of the Dialogue Structure. We describe how the corpus and its annotations have been used to develop autonomous human-robot systems and enable research in open questions of how humans speak to robots. We release this corpus to accelerate progress in autonomous, situated, human-robot dialogue, especially in the context of navigation tasks where details about the environment need to be discovered.

arxiv情報

著者 Stephanie M. Lukin,Claire Bonial,Matthew Marge,Taylor Hudson,Cory J. Hayes,Kimberly A. Pollard,Anthony Baker,Ashley N. Foots,Ron Artstein,Felix Gervits,Mitchell Abrams,Cassidy Henry,Lucia Donatelli,Anton Leuski,Susan G. Hill,David Traum,Clare R. Voss
発行日 2024-11-19 20:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, cs.RO, H.5.2 | コメントする

Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting

要約

3D ガウス スプラッティング (3DGS) を使用したロボット マニピュレータのアクティブな次善のビューとタッチ選択のためのフレームワークを提案します。
3DGS は、フォトリアリスティックかつ幾何学的に正確な方法でシーンを表現できるため、ロボット工学にとって有用な明示的な 3D シーン表現として浮上しています。
ただし、効率要件を考慮してビュー数が制限されている現実世界のオンライン ロボット シーンでは、ビューが重複して冗長であることが多いため、3DGS のランダムなビュー選択は非現実的になります。
私たちは、エンドツーエンドのオンライン トレーニングとアクティブ ビュー選択パイプラインを提案することで、この問題に対処します。これにより、少数ビューのロボット設定で 3DGS のパフォーマンスが向上します。
まず、セグメント エニシング モデル 2 (SAM2) を使用した新しいセマンティック深度アライメント手法を使用して、少数ショット 3DGS のパフォーマンスを向上させます。SAM2 には、ピアソン深度と表面法線損失を追加して、現実世界のシーンの色と深度の再構成を改善します。
次に、3DGS の次に最適なビュー選択方法である FisherRF を拡張し、深度の不確実性に基づいてビューとタッチ ポーズを選択します。
ライブ 3DGS トレーニング中に、実際のロボット システムでオンライン ビュー選択を実行します。
私たちはショット数の少ない GS シーンの改善を推進し、深度ベースの FisherRF をそれらのシーンに拡張し、困難なロボット シーンの定性的および量的改善の両方を実証します。
詳細については、https://arm.stanford.edu/next-best-sense のプロジェクト ページをご覧ください。

要約(オリジナル)

We propose a framework for active next best view and touch selection for robotic manipulators using 3D Gaussian Splatting (3DGS). 3DGS is emerging as a useful explicit 3D scene representation for robotics, as it has the ability to represent scenes in a both photorealistic and geometrically accurate manner. However, in real-world, online robotic scenes where the number of views is limited given efficiency requirements, random view selection for 3DGS becomes impractical as views are often overlapping and redundant. We address this issue by proposing an end-to-end online training and active view selection pipeline, which enhances the performance of 3DGS in few-view robotics settings. We first elevate the performance of few-shot 3DGS with a novel semantic depth alignment method using Segment Anything Model 2 (SAM2) that we supplement with Pearson depth and surface normal loss to improve color and depth reconstruction of real-world scenes. We then extend FisherRF, a next-best-view selection method for 3DGS, to select views and touch poses based on depth uncertainty. We perform online view selection on a real robot system during live 3DGS training. We motivate our improvements to few-shot GS scenes, and extend depth-based FisherRF to them, where we demonstrate both qualitative and quantitative improvements on challenging robot scenes. For more information, please see our project page at https://arm.stanford.edu/next-best-sense.

arxiv情報

著者 Matthew Strong,Boshu Lei,Aiden Swann,Wen Jiang,Kostas Daniilidis,Monroe Kennedy III
発行日 2024-11-19 21:23:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

ForestAlign: Automatic Forest Structure-based Alignment for Multi-view TLS and ALS Point Clouds

要約

地表近くから樹冠の上までさまざまなスケールで広がる、不均一な森林の非常に詳細なモデルへのアクセスの需要がますます高まっています。
これにより、分析、計画、エコシステム管理のための高度な計算ツールが可能になります。
地上 (TLS) および航空 (ALS) スキャン プラットフォームを通じて利用可能な LiDAR センサーは、正確な 3D 構造情報を迅速に収集できるため、森林監視の主要なテクノロジーとして確立されています。
林業は現在、各プラットフォームの強みを活用することでマルチスケールのアプローチがもたらす利点を認識しています。
ここでは、ForestAlign を提案します。これは、マルチビュー、マルチスケールの LiDAR ソースから収集された森林点群を位置合わせするための、ターゲットのない、完全自動の効果的な相互位置合わせ方法です。
ForestAlign は、構造の複雑さのレベルの増加に基づいて 3D ポイントをグループ化し、集約する増分配置戦略を採用しています。
この戦略では、3D ポイントをそれほど複雑でない (地面など) からより複雑な構造 (木の幹や葉など) まで順番に位置合わせし、繰り返し位置合わせを調整します。
経験的証拠は、スキャンの位置合わせにおけるこの方法の有効性を示しており、RMSE 誤差は、TLS から TLS の場合では回転で 0.75 度未満、平行移動で 5.5 cm 未満、TLS から ALS の場合ではそれぞれ 0.8 度および 8 cm 未満でした。
これらの結果は、ForestAlign が TLS-to-TLS および TLS-to-ALS のフォレスト スキャンを効果的に統合できるため、手動で配置されたターゲットに依存することなく、GPS が拒否されたエリアで貴重なツールとなり、同時に高いパフォーマンスを達成できることを示しています。

要約(オリジナル)

Access to highly detailed models of heterogeneous forests, spanning from the near surface to above the tree canopy at varying scales, is increasingly in demand. This enables advanced computational tools for analysis, planning, and ecosystem management. LiDAR sensors, available through terrestrial (TLS) and aerial (ALS) scanning platforms, have become established as the primary technologies for forest monitoring due to their capability to rapidly collect precise 3D structural information. Forestry now recognizes the benefits that a multi-scale approach can bring by leveraging the strengths of each platform. Here, we propose ForestAlign: an effective, target-less, and fully automatic co-registration method for aligning forest point clouds collected from multi-view, multi-scale LiDAR sources. ForestAlign employs an incremental alignment strategy, grouping and aggregating 3D points based on increasing levels of structural complexity. This strategy aligns 3D points from less complex (e.g., ground) to more complex structures (e.g., tree trunks, foliage) sequentially, refining alignment iteratively. Empirical evidence demonstrates the method’s effectiveness in aligning scans, with RMSE errors of less than 0.75 degrees in rotation and 5.5 cm in translation in the TLS to TLS case and of 0.8 degrees and 8 cm in the TLS to ALS case, respectively. These results demonstrate that ForestAlign can effectively integrate TLS-to-TLS and TLS-to-ALS forest scans, making it a valuable tool in GPS-denied areas without relying on manually placed targets, while achieving high performance.

arxiv情報

著者 Juan Castorena,L. Turin Dickman,Adam J. Killebrew,James R Gattiker,Rod Linn,E. Louise Loudermilk
発行日 2024-11-19 22:56:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

I Can Tell What I am Doing: Toward Real-World Natural Language Grounding of Robot Experiences

要約

自然言語を通じてロボットの動作と経験を理解することは、インテリジェントで透過的なロボット システムを開発するために重要です。
大規模言語モデル (LLM) の最近の進歩により、複雑でマルチモーダルなロボットのエクスペリエンスを、一貫した人間が読める物語に翻訳できるようになりました。
ただし、現実世界のロボットのエクスペリエンスを自然言語に根付かせることは、データのマルチモーダルな性質、サンプル レートの違い、データ量などの多くの理由により困難です。
ロボットのエクスペリエンスから自然言語ナレーションを生成する LLM ベースのシステムである RONAR を紹介します。これは、動作アナウンス、障害分析、および障害を回復するための人間の対話を支援します。
さまざまなシナリオにわたって評価された RONAR は、最先端の手法を上回り、障害回復効率を向上させます。
私たちの貢献には、ロボット エクスペリエンス ナレーションのためのマルチモーダル フレームワーク、包括的な実際のロボット データセット、システムの透明性と障害分析におけるユーザー エクスペリエンスの向上における RONAR の有効性の実証的証拠が含まれます。

要約(オリジナル)

Understanding robot behaviors and experiences through natural language is crucial for developing intelligent and transparent robotic systems. Recent advancement in large language models (LLMs) makes it possible to translate complex, multi-modal robotic experiences into coherent, human-readable narratives. However, grounding real-world robot experiences into natural language is challenging due to many reasons, such as multi-modal nature of data, differing sample rates, and data volume. We introduce RONAR, an LLM-based system that generates natural language narrations from robot experiences, aiding in behavior announcement, failure analysis, and human interaction to recover failure. Evaluated across various scenarios, RONAR outperforms state-of-the-art methods and improves failure recovery efficiency. Our contributions include a multi-modal framework for robot experience narration, a comprehensive real-robot dataset, and empirical evidence of RONAR’s effectiveness in enhancing user experience in system transparency and failure analysis.

arxiv情報

著者 Zihan Wang,Brian Liang,Varad Dhat,Zander Brumbaugh,Nick Walker,Ranjay Krishna,Maya Cakmak
発行日 2024-11-20 01:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Bring the Heat: Rapid Trajectory Optimization with Pseudospectral Techniques and the Affine Geometric Heat Flow Equation

要約

制約を遵守しながら、時間効率の高い方法で高次元ロボット システムの最適な軌道を生成することは、困難な作業です。
この課題に対処するために、この論文では PHLAME を紹介します。これは、擬似スペクトル コロケーションと空間ベクトル代数を適用して、軌道最適化のためのアフィン幾何熱流 (AGHF) 偏微分方程式 (PDE) を効率的に解きます。
状態空間全体にわたる関数を解くハミルトン・ヤコビ・ベルマン (HJB) PDE のような従来の PDE アプローチとは異なり、AGHF PDE の解を計算すると、その解が 2 次元領域にわたって定義されるため、より効率的にスケーリングされます。
状態空間のスケーリングの困難さを回避します。
AGHF を解くには、通常、ライン法 (MOL) を適用します。これは、AGHF PDE の 1 つの変数を離散化し、PDE を標準の時間積分法を使用して解くことができる常微分方程式 (ODE) 系に効果的に変換することによって機能します。

この方法は強力ですが、正確な解を生成するには細かい離散化が必要であり、高次元システムでは計算コストが高くなる可能性がある AGHF PDE を評価する必要もあります。
PHLAME は、擬似スペクトル法を使用することでこの欠点を克服し、高精度のソリューションを生成するために必要な関数評価の数を減らし、高次元のロボット システムに効率的に拡張できるようにします。
計算速度をさらに向上させるために、この論文では、AGHF とそのヤコビアンの解析式を紹介します。どちらも剛体ダイナミクス アルゴリズムを使用して効率的に計算できます。
提案された方法 PHLAME は、障害物の有無にかかわらず、さまざまな力学システムにわたってテストされ、多くの最先端技術と比較されます。
PHLAME は、$\sim3$ 秒で 44 次元状態空間システムの軌道を生成します。これは、現在の最先端技術よりもはるかに高速です。

要約(オリジナル)

Generating optimal trajectories for high-dimensional robotic systems in a time-efficient manner while adhering to constraints is a challenging task. To address this challenge, this paper introduces PHLAME, which applies pseudospectral collocation and spatial vector algebra to efficiently solve the Affine Geometric Heat Flow (AGHF) Partial Differential Equation (PDE) for trajectory optimization. Unlike traditional PDE approaches like the Hamilton-Jacobi-Bellman (HJB) PDE, which solve for a function over the entire state space, computing a solution to the AGHF PDE scales more efficiently because its solution is defined over a two-dimensional domain, thereby avoiding the intractability of state-space scaling. To solve the AGHF one usually applies the Method of Lines (MOL), which works by discretizing one variable of the AGHF PDE, effectively converting the PDE into a system of ordinary differential equations (ODEs) that can be solved using standard time-integration methods. Though powerful, this method requires a fine discretization to generate accurate solutions and still requires evaluating the AGHF PDE which can be computationally expensive for high-dimensional systems. PHLAME overcomes this deficiency by using a pseudospectral method, which reduces the number of function evaluations required to yield a high accuracy solution thereby allowing it to scale efficiently to high-dimensional robotic systems. To further increase computational speed, this paper presents analytical expressions for the AGHF and its Jacobian, both of which can be computed efficiently using rigid body dynamics algorithms. The proposed method PHLAME is tested across various dynamical systems, with and without obstacles and compared to a number of state-of-the-art techniques. PHLAME generates trajectories for a 44-dimensional state-space system in $\sim3$ seconds, much faster than current state-of-the-art techniques.

arxiv情報

著者 Challen Enninful Adu,César E. Ramos Chuquiure,Bohao Zhang,Ram Vasudevan
発行日 2024-11-20 01:37:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする

Shrinking POMCP: A Framework for Real-Time UAV Search and Rescue

要約

捜索救助活動におけるドローンの効率的な経路の最適化は、視界の制限、時間の制約、都市環境での複雑な情報収集などの課題に直面しています。
3D AirSim-ROS2 シミュレーターと 2D シミュレーターの両方を利用して、近隣地域での UAV ベースの捜索救助活動を最適化するための包括的なアプローチを紹介します。
経路計画問題は部分観察可能なマルコフ決定プロセス (POMDP) として定式化され、時間制約に対処するための新しい「縮小 POMCP」アプローチを提案します。
AirSim 環境では、信念維持のための確率的世界モデルと障害物回避のための神経象徴ナビゲーターとアプローチを統合します。
2D シミュレーターは、同等の機能を持つサロゲート ROS2 ノードを採用しています。
2D シミュレーターでさまざまなアプローチによって生成された軌道を比較し、3D AirSim-ROS シミュレーターでさまざまな信念タイプにわたるパフォーマンスを評価します。
両方のシミュレーターからの実験結果は、私たちが提案する縮小 POMCP ソリューションが代替方法と比較して捜索時間の大幅な改善を達成することを実証し、UAV 支援による捜索および救助活動の効率を高める可能性を示しています。

要約(オリジナル)

Efficient path optimization for drones in search and rescue operations faces challenges, including limited visibility, time constraints, and complex information gathering in urban environments. We present a comprehensive approach to optimize UAV-based search and rescue operations in neighborhood areas, utilizing both a 3D AirSim-ROS2 simulator and a 2D simulator. The path planning problem is formulated as a partially observable Markov decision process (POMDP), and we propose a novel “Shrinking POMCP” approach to address time constraints. In the AirSim environment, we integrate our approach with a probabilistic world model for belief maintenance and a neurosymbolic navigator for obstacle avoidance. The 2D simulator employs surrogate ROS2 nodes with equivalent functionality. We compare trajectories generated by different approaches in the 2D simulator and evaluate performance across various belief types in the 3D AirSim-ROS simulator. Experimental results from both simulators demonstrate that our proposed shrinking POMCP solution achieves significant improvements in search times compared to alternative methods, showcasing its potential for enhancing the efficiency of UAV-assisted search and rescue operations.

arxiv情報

著者 Yunuo Zhang,Baiting Luo,Ayan Mukhopadhyay,Daniel Stojcsics,Daniel Elenius,Anirban Roy,Susmit Jha,Miklos Maroti,Xenofon Koutsoukos,Gabor Karsai,Abhishek Dubey
発行日 2024-11-20 01:41:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Quadratic Programming Optimization for Bio-Inspired Thruster-Assisted Bipedal Locomotion on Inclined Slopes

要約

私たちの研究は、姿勢操作と推力ベクタリングの統合に基づいた未踏の移動制御パラダイムの理解において大幅な進歩を遂げることを目的としています。
これらのテクニックは、チュカル鳥が翼を使ってほぼ垂直の壁を走るなど、自然界でよく見られます。
この研究では、接触制約を伴う二次計画法を示します。この制約は全身コントローラーに与えられ、ロボットの状態にマッピングされ、最先端の Harpy プラットフォーム用のスラスター支援坂道歩行コントローラーを生成します。
ハーピーは、メインフレームに取り付けられた脚とスラスターを使用して脚式空中移動が可能な二足歩行ロボットです。
最適化ベースの歩行コントローラーは、坂道歩行などの動的移動に使用されてきましたが、傾斜坂道歩行を実行するためのスラスターの追加については、あまり検討されていませんでした。
この研究では、二次計画法 (QP) コントローラーを使用してスラスター支援二足歩行を導出し、それをシミュレーションに実装してその性能を調査します。

要約(オリジナル)

Our work aims to make significant strides in understanding unexplored locomotion control paradigms based on the integration of posture manipulation and thrust vectoring. These techniques are commonly seen in nature, such as Chukar birds using their wings to run on a nearly vertical wall. In this work, we show quadratic programming with contact constraints which is then given to the whole body controller to map on robot states to produce a thruster-assisted slope walking controller for our state-of-the-art Harpy platform. Harpy is a bipedal robot capable of legged-aerial locomotion using its legs and thrusters attached to its main frame. The optimization-based walking controller has been used for dynamic locomotion such as slope walking, but the addition of thrusters to perform inclined slope walking has not been extensively explored. In this work, we derive a thruster-assisted bipedal walking with the quadratic programming (QP) controller and implement it in simulation to study its performance.

arxiv情報

著者 Shreyansh Pitroda,Eric Sihite,Kaushik Venkatesh Krishnamurthy,Chenghao Wang,Adarsh Salagame,Reza Nemovi,Alireza Ramezani,Morteza Gharib
発行日 2024-11-20 01:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Validation of Tumbling Robot Dynamics with Posture Manipulation for Closed-Loop Heading Angle Control

要約

起伏の多い地形や急な坂道を移動することは、移動ロボットにとって課題です。
従来の脚付きシステムや車輪付きシステムは、牽引力と安定性が限られているため、これらの環境では困難を抱えていました。
ノースイースタン大学の COBRA (Crater Observing Bio-inspired Rolling Articulator) は、新しいマルチモーダルなヘビのようなロボットで、平らな面や傾斜面での移動のための従来のヘビの歩き方と、急な斜面で制御された降下のためのタンブリング モードを組み合わせることで、これらの問題に対処しています。
COBRA は、動的な姿勢操作を通じて、タンブリング中の進行角度と速度を調整できます。
この論文では、COBRA の転倒運動の低次数カスケード モデルを提示し、それを高忠実度の剛体シミュレーションに対して検証し、モデルが主要なシステム ダイナミクスを捉えていることを示すシミュレーション結果を示します。

要約(オリジナル)

Navigating rugged terrain and steep slopes is a challenge for mobile robots. Conventional legged and wheeled systems struggle with these environments due to limited traction and stability. Northeastern University’s COBRA (Crater Observing Bio-inspired Rolling Articulator), a novel multi-modal snake-like robot, addresses these issues by combining traditional snake gaits for locomotion on flat and inclined surfaces with a tumbling mode for controlled descent on steep slopes. Through dynamic posture manipulation, COBRA can modulate its heading angle and velocity during tumbling. This paper presents a reduced-order cascade model for COBRA’s tumbling locomotion and validates it against a high-fidelity rigid-body simulation, presenting simulation results that show that the model captures key system dynamics.

arxiv情報

著者 Adarsh Salagame,Eric Sihite,Alireza Ramezani
発行日 2024-11-20 01:47:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | コメントする