IntGrad MT: Eliciting LLMs’ Machine Translation Capabilities with Sentence Interpolation and Gradual MT

要約

最近の大規模言語モデル (LLM) は、追加の並列コーパスを微調整する必要がなく、翻訳において優れたパフォーマンスを発揮します。
ただし、リソースの少ない言語ペアでは依然としてパフォーマンスが劣ります。
これまでの研究では、関連する少数ショットの例や、辞書や文法書などの外部リソースを活用することで、この問題を軽減することに重点を置き、モデルをこれらのノンパラメトリックな情報源に大きく依存させてきました。
この論文では、LLM の固有の変換機能を最大限に活用することに焦点を当てた、IntGrad MT と呼ばれる新しい方法を提案します。
IntGrad MT は、ソース文とモデル独自の翻訳で構成され、段階的に難易度が上がる数ショットの例のチェーンを構築することでこれを実現します。
IntGrad MT は 2 つの技術を採用しています。1 つは簡単な文から難しい文に徐々に変化する一連の文を生成する文補間で、もう 1 つは段階的 MT で、以前の文の翻訳を数ショットの例として使用してこのチェーンを逐次翻訳します。
後続の翻訳。
このアプローチにより、複数の言語、特にヒンディー語 (8.26)、スワヒリ語 (7.10)、ベンガル語 (6.97)、マラーティー語 (13.03) などの低リソース言語で、さまざまな LLM の xCOMET スコアが大幅に向上していることがわかります。
私たちのアプローチは、追加のトレーニングなしで LLM のパフォーマンスを向上させる実用的な方法を示しています。

要約(オリジナル)

Recent Large Language Models (LLMs) have demonstrated strong performance in translation without needing to be finetuned on additional parallel corpora. However, they still underperform for low-resource language pairs. Previous works have focused on mitigating this issue by leveraging relevant few-shot examples or external resources such as dictionaries or grammar books, making models heavily reliant on these nonparametric sources of information. In this paper, we propose a novel method named IntGrad MT that focuses on fully exploiting an LLM’s inherent translation capability. IntGrad MT achieves this by constructing a chain of few-shot examples, each consisting of a source sentence and the model’s own translation, that rise incrementally in difficulty. IntGrad MT employs two techniques: Sentence Interpolation, which generates a sequence of sentences that gradually change from an easy sentence to translate to a difficult one, and Gradual MT, which sequentially translates this chain using translations of earlier sentences as few-shot examples for the translation of subsequent ones. With this approach, we observe a substantial enhancement in the xCOMET scores of various LLMs for multiple languages, especially in low-resource languages such as Hindi(8.26), Swahili(7.10), Bengali(6.97) and Marathi(13.03). Our approach presents a practical way of enhancing LLMs’ performance without extra training.

arxiv情報

著者 Seung-Woo Choi,Ga-Hyun Yoo,Jay-Yoon Lee
発行日 2024-10-16 01:45:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | IntGrad MT: Eliciting LLMs’ Machine Translation Capabilities with Sentence Interpolation and Gradual MT はコメントを受け付けていません

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

要約

マルチエージェント強化学習 (MARL) は、さまざまな逐次的意思決定および制御タスクのための重要なフレームワークとして浮上しています。
シングル エージェント システムとは異なり、マルチ エージェント システムではエージェント間の連携が成功する必要があります。
これらのシステムを現実世界のシナリオに展開するには、多くの場合、分散型トレーニング、多様なエージェントのセット、まれな環境報酬信号からの学習が必要です。
これらの課題は、部分的な可観測性とエージェントの異質性に関する事前知識の欠如の下でより顕著になります。
注目すべき研究では内発的動機づけ (IM) を使用して分散型設定における報酬の希薄性や協力に対処していますが、異質性を扱う研究では通常、集中型トレーニング、パラメータ共有、エージェントのインデックス付けを前提としています。
これらの制限を克服するために、我々は CoHet アルゴリズムを提案します。このアルゴリズムは、部分的な可観測性と報酬の希薄性という課題の下で、分散設定における異種エージェント ポリシーの学習を促進する、新しいグラフ ニューラル ネットワーク (GNN) ベースの内発的動機付けを利用します。
マルチエージェント粒子環境 (MPE) およびベクトル化マルチエージェント シミュレーター (VMAS) ベンチマークでの CoHet の評価では、さまざまな協力マルチエージェント シナリオにおいて、最先端のものと比較して優れたパフォーマンスが実証されました。
私たちの研究は、内発的動機づけモジュールに対するエージェント ダイナミクス モデルの影響の分析、さまざまな CoHet バリアントのパフォーマンスに関する洞察、および増加する異種エージェントに対する堅牢性によって補足されています。

要約(オリジナル)

Multi-agent Reinforcement Learning (MARL) is emerging as a key framework for various sequential decision-making and control tasks. Unlike their single-agent counterparts, multi-agent systems necessitate successful cooperation among the agents. The deployment of these systems in real-world scenarios often requires decentralized training, a diverse set of agents, and learning from infrequent environmental reward signals. These challenges become more pronounced under partial observability and the lack of prior knowledge about agent heterogeneity. While notable studies use intrinsic motivation (IM) to address reward sparsity or cooperation in decentralized settings, those dealing with heterogeneity typically assume centralized training, parameter sharing, and agent indexing. To overcome these limitations, we propose the CoHet algorithm, which utilizes a novel Graph Neural Network (GNN) based intrinsic motivation to facilitate the learning of heterogeneous agent policies in decentralized settings, under the challenges of partial observability and reward sparsity. Evaluation of CoHet in the Multi-agent Particle Environment (MPE) and Vectorized Multi-Agent Simulator (VMAS) benchmarks demonstrates superior performance compared to the state-of-the-art in a range of cooperative multi-agent scenarios. Our research is supplemented by an analysis of the impact of the agent dynamics model on the intrinsic motivation module, insights into the performance of different CoHet variants, and its robustness to an increasing number of heterogeneous agents.

arxiv情報

著者 Jahir Sadik Monon,Deeparghya Dutta Barua,Md. Mosaddek Khan
発行日 2024-10-15 02:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO, I.2.11 | Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards はコメントを受け付けていません

OrbitGrasp: $SE(3)$-Equivariant Grasp Learning

要約

把握検出はロボット操作パイプラインの重要な部分ですが、$SE(3)$ における信頼性が高く正確な把握検出は依然として研究課題です。
家庭や倉庫などの非構造化環境における多くのロボット アプリケーションは、把握パフォーマンスの向上により大きな恩恵を受けるでしょう。
この論文は、点群入力に基づいて $SE(3)$ 把握ポーズを検出するための新しいフレームワークを提案します。
私たちの主な貢献は、球面調和基底を使用して雲内の各点を 2 球面 $S^2$ にわたる連続把握品質関数にマッピングする $SE(3)$ 等変モデルを提案することです。
有限のサンプルセットに関する推論と比較して、この定式化により、多数のサンプルが必要となる場合のモデルの精度と効率が向上します。
これを達成するために、UNet スタイルのエンコーダ/デコーダ アーキテクチャを利用してモデルが処理できるポイントの数を増やす EquiFormerV2 の新しいバリエーションを提案します。
$\textit{OrbitGrasp}$ と名付けた結果のメソッドは、シミュレーションと物理実験の両方でベースラインを大幅に上回りました。

要約(オリジナル)

While grasp detection is an important part of any robotic manipulation pipeline, reliable and accurate grasp detection in $SE(3)$ remains a research challenge. Many robotics applications in unstructured environments such as the home or warehouse would benefit a lot from better grasp performance. This paper proposes a novel framework for detecting $SE(3)$ grasp poses based on point cloud input. Our main contribution is to propose an $SE(3)$-equivariant model that maps each point in the cloud to a continuous grasp quality function over the 2-sphere $S^2$ using a spherical harmonic basis. Compared with reasoning about a finite set of samples, this formulation improves the accuracy and efficiency of our model when a large number of samples would otherwise be needed. In order to accomplish this, we propose a novel variation on EquiFormerV2 that leverages a UNet-style encoder-decoder architecture to enlarge the number of points the model can handle. Our resulting method, which we name $\textit{OrbitGrasp}$, significantly outperforms baselines in both simulation and physical experiments.

arxiv情報

著者 Boce Hu,Xupeng Zhu,Dian Wang,Zihao Dong,Haojie Huang,Chenghao Wang,Robin Walters,Robert Platt
発行日 2024-10-15 02:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | OrbitGrasp: $SE(3)$-Equivariant Grasp Learning はコメントを受け付けていません

M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes

要約

我々は、モバイル操作タスクのための全身動作生成の新しいベンチマークである M^3Bench を提案します。
3D シーンのコンテキストが与えられると、M^3Bench では、身体化されたエージェントがその構成、環境制約、タスクの目的を理解し、オブジェクトの再配置タスクのために調整された全身運動の軌道を生成する必要があります。
M^3Bench は 119 の多様なシーンにわたる 30,000 のオブジェクト再配置タスクを備えており、新しく開発された M^3BenchMaker によって生成された専門家のデモンストレーションを提供します。
この自動データ生成ツールは、基本的なシーンとロボットの情報のみを必要とする、高レベルのタスク命令から調整された全身動作の軌跡を生成します。
私たちのベンチマークには、さまざまなタスク分割を組み込んで、さまざまな次元にわたる一般化を評価し、軌道評価のために現実的な物理シミュレーションを活用します。
広範な実験解析を通じて、最先端のモデルは、環境コンテキストやタスク固有の制約を遵守しながらも、ベースアームの動作を調整することに依然として苦労していることを明らかにし、このギャップに対処する新しいモデルを開発する必要性を強調しています。
私たちは、M^3Bench を通じて、現実世界の多様な環境における、より適応的で有能なモバイル操作に向けた将来のロボット研究を促進することを目指しています。

要約(オリジナル)

We propose M^3Bench, a new benchmark of whole-body motion generation for mobile manipulation tasks. Given a 3D scene context, M^3Bench requires an embodied agent to understand its configuration, environmental constraints and task objectives, then generate coordinated whole-body motion trajectories for object rearrangement tasks. M^3Bench features 30k object rearrangement tasks across 119 diverse scenes, providing expert demonstrations generated by our newly developed M^3BenchMaker. This automatic data generation tool produces coordinated whole-body motion trajectories from high-level task instructions, requiring only basic scene and robot information. Our benchmark incorporates various task splits to assess generalization across different dimensions and leverages realistic physics simulation for trajectory evaluation. Through extensive experimental analyses, we reveal that state-of-the-art models still struggle with coordinated base-arm motion while adhering to environment-context and task-specific constraints, highlighting the need to develop new models that address this gap. Through M^3Bench, we aim to facilitate future robotics research towards more adaptive and capable mobile manipulation in diverse, real-world environments.

arxiv情報

著者 Zeyu Zhang,Sixu Yan,Muzhi Han,Zaijin Wang,Xinggang Wang,Song-Chun Zhu,Hangxin Liu
発行日 2024-10-15 03:02:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes はコメントを受け付けていません

Self-Supervised Learning For Robust Robotic Grasping In Dynamic Environment

要約

動的環境における脅威には、物体の動きの予測不可能性やロボットによる把握への干渉などがあります。
このような状況では、従来の教師あり強化学習アプローチは、大量のラベル付きデータと事前定義された報酬信号に依存するため、あまり適していません。
より具体的には、この論文では、自己教師あり学習 (SSL) として知られる重要かつ有望なフレームワークを紹介します。その目標は、RGBD センサーとロボットの手からの固有受容データに適用して、ロボットがリアルタイムで把握戦略を学習および改善できるようにすることです。

インバリアント SSL フレームワークは、オブジェクトの動作の変化に SSL システムを適応させ、動的な状況でのパフォーマンスを向上させることで、固定ラベル付けの欠点を克服します。
上記で提案された方法は、さまざまなシミュレーションと現実世界での試験を通じてテストされ、特に動的シナリオの下で、他の既存の方法よりも 15% という強化された把握成功率を獲得しました。
また、適応時間のテストにより、システムがより速く適応できることが確認され、産業オートメーションやサービスロボットなどの現実世界での使用に適用可能です。
将来の研究では、提案された方法論をより広範囲のロボットタスクに適用するために、提案されたアプローチは、複数のオブジェクトの操作や乱雑な環境のコンテキストでの機能など、より複雑なタスクに拡張される予定です。

要約(オリジナル)

Some of the threats in the dynamic environment include the unpredictability of the motion of objects and interferences to the robotic grasp. In such conditions the traditional supervised and reinforcement learning approaches are ill suited because they rely on a large amount of labelled data and a predefined reward signal. More specifically in this paper we introduce an important and promising framework known as self supervised learning (SSL) whose goal is to apply to the RGBD sensor and proprioceptive data from robot hands in order to allow robots to learn and improve their grasping strategies in real time. The invariant SSL framework overcomes the deficiencies of the fixed labelling by adapting the SSL system to changes in the objects behavior and improving performance in dynamic situations. The above proposed method was tested through various simulations and real world trials, with the series obtaining enhanced grasp success rates of 15% over other existing methods, especially under dynamic scenarios. Also, having tested for adaptation times, it was confirmed that the system could adapt faster, thus applicable for use in the real world, such as in industrial automation and service robotics. In future work, the proposed approach will be expanded to more complex tasks, such as multi object manipulation and functions in the context of cluttered environments, in order to apply the proposed methodology to a broader range of robotic tasks.

arxiv情報

著者 Ankit Shaw
発行日 2024-10-15 03:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Self-Supervised Learning For Robust Robotic Grasping In Dynamic Environment はコメントを受け付けていません

Routing and Scheduling Optimization for Urban Air Mobility Fleet Management using Quantum Annealing

要約

交通渋滞の増大とその環境的・経済的影響により、都市交通と配送のためのアーバン・エア・モビリティ(UAM)の統合が加速しています。
安全で効果的な運航を確保するには、都市で予想される高密度の航空交通を効率的に管理することが重要です。
この研究では、都市部で運行する大規模な UAM 車両のニーズに対応するためのルーティングとスケジューリングのフレームワークを提案します。
数学的最適化技術を使用して、車両群の効率的で衝突を回避したルートを計画します。
ルート計画を最大重み付き独立集合問題として定式化すると、さまざまなアルゴリズムや、近年大幅な進歩が見られる量子アニーラーなどの特殊な最適化ハードウェアを利用できるようになります。
私たちの手法は、シンガポールの空域に合わせて調整された交通管理シミュレーターを使用して検証されています。
私たちのアプローチは、地域全体に交通を分散させることで空域の利用を高めます。
この研究は、UAM トラフィック管理における最適化技術の潜在的な応用範囲を広げます。

要約(オリジナル)

The growing integration of urban air mobility (UAM) for urban transportation and delivery has accelerated due to increasing traffic congestion and its environmental and economic repercussions. Efficiently managing the anticipated high-density air traffic in cities is critical to ensure safe and effective operations. In this study, we propose a routing and scheduling framework to address the needs of a large fleet of UAM vehicles operating in urban areas. Using mathematical optimization techniques, we plan efficient and deconflicted routes for a fleet of vehicles. Formulating route planning as a maximum weighted independent set problem enables us to utilize various algorithms and specialized optimization hardware, such as quantum annealers, which has seen substantial progress in recent years. Our method is validated using a traffic management simulator tailored for the airspace in Singapore. Our approach enhances airspace utilization by distributing traffic throughout a region. This study broadens the potential applications of optimization techniques in UAM traffic management.

arxiv情報

著者 Renichiro Haba,Takuya Mano,Ryosuke Ueda,Genichiro Ebe,Kohei Takeda,Masayoshi Terabe,Masayuki Ohzeki
発行日 2024-10-15 03:27:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.RO, quant-ph | Routing and Scheduling Optimization for Urban Air Mobility Fleet Management using Quantum Annealing はコメントを受け付けていません

Harmonic Mobile Manipulation

要約

最近のロボット工学の進歩により、ロボットは複雑なシーンをナビゲートしたり、さまざまなオブジェクトを独立して操作したりできるようになりました。
しかし、ロボットは、ドアを開けるなどの協調動作を必要とする多くの家事作業においては依然として無力である。
ナビゲーションと操作の因数分解は、一部のタスクでは効果的ですが、調整されたアクションが必要なシナリオでは失敗します。
この課題に対処するために、ナビゲーションと操作の両方を最適化するエンドツーエンドの学習方法である HarmonicMM を導入し、日常のタスクにおいて既存の技術に比べて顕著な改善を示しています。
このアプローチは、シミュレートされた環境と現実世界の環境で検証されており、追加の調整なしで新しい目に見えない設定に適応します。
私たちの貢献には、モバイル操作の新しいベンチマークと、目に見えない実際のアパートでの RGB 視覚観察のみによる導入の成功が含まれており、日常生活における実用的な屋内ロボット導入の可能性を実証しています。
さらなる結果はプロジェクト サイトにあります: https://rchalyang.github.io/HarmonicMM/

要約(オリジナル)

Recent advancements in robotics have enabled robots to navigate complex scenes or manipulate diverse objects independently. However, robots are still impotent in many household tasks requiring coordinated behaviors such as opening doors. The factorization of navigation and manipulation, while effective for some tasks, fails in scenarios requiring coordinated actions. To address this challenge, we introduce, HarmonicMM, an end-to-end learning method that optimizes both navigation and manipulation, showing notable improvement over existing techniques in everyday tasks. This approach is validated in simulated and real-world environments and adapts to novel unseen settings without additional tuning. Our contributions include a new benchmark for mobile manipulation and the successful deployment with only RGB visual observation in a real unseen apartment, demonstrating the potential for practical indoor robot deployment in daily life. More results are on our project site: https://rchalyang.github.io/HarmonicMM/

arxiv情報

著者 Ruihan Yang,Yejin Kim,Rose Hendrix,Aniruddha Kembhavi,Xiaolong Wang,Kiana Ehsani
発行日 2024-10-15 03:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Harmonic Mobile Manipulation はコメントを受け付けていません

Biologically Inspired Swarm Dynamic Target Tracking and Obstacle Avoidance

要約

この研究では、軍事用途向けに分散型ドローン群を使用して動的目標を追跡するために、オンラインの自由再訓練予測モデル、群制御、および障害物回避戦略を統合した、新しい人工知能 (AI) 駆動のフライト コンピューターを提案します。
動的な目標追跡を可能にするために、群れは効率的な経路計画を維持しながら急速な操縦や動きの追跡を可能にする迎撃を達成するための軌道予測機能を必要とします。
カーブ フィッティングや Long ShortTerm Memory (LSTM) などの従来の予測手法は堅牢性が低く、単一エージェント ベースの軌道予測の収束が遅いため、短期的には動的ターゲット追跡に苦労し、多くの場合、効果を発揮するには広範なオフライン トレーニングやチューニングが必要です。
したがって、この論文では、これらの課題に対処するための、新しい堅牢な適応双方向ファジー脳感情学習予測 (BFBEL-P) 方法論を紹介します。
このコントローラーには、ファジー インターフェイス、迅速な適応、予測機能、および複数のソリューションを集約できるマルチエージェント解決を可能にするニューラル ネットワークが統合されており、短期および長期の両方で迅速な収束時間と高精度を実現します。
これは、ドローンの群れによって予測および追跡される複雑な軌道を確認する数値シミュレーションの使用を通じて検証されました。
これらのシミュレーションでは、短期的には最先端の手法に対する適応性と精度が向上し、長期領域では強力な結果が得られ、正確な群れターゲットの追跡と予測機能が可能になることが示されています。

要約(オリジナル)

This study proposes a novel artificial intelligence (AI) driven flight computer, integrating an online free-retraining-prediction model, a swarm control, and an obstacle avoidance strategy, to track dynamic targets using a distributed drone swarm for military applications. To enable dynamic target tracking the swarm requires a trajectory prediction capability to achieve intercept allowing for the tracking of rapid maneuvers and movements while maintaining efficient path planning. Traditional predicative methods such as curve fitting or Long ShortTerm Memory (LSTM) have low robustness and struggle with dynamic target tracking in the short term due to slow convergence of single agent-based trajectory prediction and often require extensive offline training or tuning to be effective. Consequently, this paper introduces a novel robust adaptive bidirectional fuzzy brain emotional learning prediction (BFBEL-P) methodology to address these challenges. The controller integrates a fuzzy interface, a neural network enabling rapid adaption, predictive capability and multi-agent solving enabling multiple solutions to be aggregated to achieve rapid convergence times and high accuracy in both the short and long term. This was verified through the use of numerical simulations seeing complex trajectory being predicted and tracked by a swarm of drones. These simulations show improved adaptability and accuracy to state of the art methods in the short term and strong results over long time domains, enabling accurate swarm target tracking and predictive capability.

arxiv情報

著者 Lucas Page
発行日 2024-10-15 03:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NE, cs.RO | Biologically Inspired Swarm Dynamic Target Tracking and Obstacle Avoidance はコメントを受け付けていません

Learning to Singulate Objects in Packed Environments using a Dexterous Hand

要約

ロボットによる物体の個片化 (ロボットが乱雑な環境で対象物体を分離、把握、および回収する必要がある) は、ロボット操作における基本的な課題です。
このタスクは、オクルージョンや、他のオブジェクトが操作の障害物としてどのように機能するかによって、困難になります。
ロボットは、ターゲットを単一化しようとするときに、オブジェクト間の相互作用の影響についても推論する必要があります。
これまでの研究では、スペースが狭く、オブジェクトが互いにほとんど分離していない場合とは対照的に、オブジェクトを分離するために比較的長いプッシュを実行するのに十分な空きスペースがあるシナリオでのオブジェクトの単一化を検討してきました。
このペーパーでは、Singulated Objects in Packed Environments (SOPE) フレームワークを提案します。
我々は、変位ベースの状態表現と、16-DOF Allegro Hand を使用したシンギュレーションを可能にする多段階強化学習手順を含む新しい方法を提案します。
Isaac Gym シミュレーションで広範な実験を行い、乱雑なターゲット オブジェクトを単一化するシステムの能力を示します。
シミュレーションで訓練されたポリシーを現実世界に直接転送します。
250 回を超える物理的なロボット操作の試行により、私たちの方法は 79.2% の成功率を獲得し、代替の学習方法や非学習方法を上回りました。

要約(オリジナル)

Robotic object singulation, where a robot must isolate, grasp, and retrieve a target object in a cluttered environment, is a fundamental challenge in robotic manipulation. This task is difficult due to occlusions and how other objects act as obstacles for manipulation. A robot must also reason about the effect of object-object interactions as it tries to singulate the target. Prior work has explored object singulation in scenarios where there is enough free space to perform relatively long pushes to separate objects, in contrast to when space is tight and objects have little separation from each other. In this paper, we propose the Singulating Objects in Packed Environments (SOPE) framework. We propose a novel method that involves a displacement-based state representation and a multi-phase reinforcement learning procedure that enables singulation using the 16-DOF Allegro Hand. We demonstrate extensive experiments in Isaac Gym simulation, showing the ability of our system to singulate a target object in clutter. We directly transfer the policy trained in simulation to the real world. Over 250 physical robot manipulation trials, our method obtains success rates of 79.2%, outperforming alternative learning and non-learning methods.

arxiv情報

著者 Hao Jiang,Yuhai Wang,Hanyang Zhou,Daniel Seita
発行日 2024-10-15 03:51:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Learning to Singulate Objects in Packed Environments using a Dexterous Hand はコメントを受け付けていません

Ego-to-Exo: Interfacing Third Person Visuals from Egocentric Views in Real-time for Improved ROV Teleoperation

要約

水中 ROV (遠隔操作車両) は、深海の探索と操作のために設計された無人潜水車両です。
ハイエンドのカメラを使用しているにもかかわらず、一人称 (自己中心) ビューに基づく一般的な遠隔操作エンジンでは、複雑な深海ミッションで水上オペレーターが ROV を操縦する能力が制限されます。
この論文では、状況認識の向上により操作能力を強化する対話型遠隔操作インターフェイスを紹介します。
これは、(i) 過去の自己中心的なビューからオンデマンドの「三人称」(外中心) ビジュアルを提供すること、(ii) リアルタイムで拡張された ROV 姿勢情報により強化された周辺情報を促進することによって実現されます。
これは、正確な軌道推定のために 3D ジオメトリベースの Ego-to-Exo ビュー合成アルゴリズムを単眼 SLAM システムに統合することによって実現されます。
提案されたクローズドフォームソリューションは、姿勢推定のために ROV からの過去の自己中心的なビューと SLAM バックボーンのみを使用するため、既存の ROV プラットフォームに移植可能です。
データ駆動型のソリューションとは異なり、アプリケーションや水域固有のシーンに対して不変です。
私たちは、困難な低照度条件下での 2 自由度の屋内ナビゲーションと 6 自由度の水中洞窟探検の広範な実験を通じて、提案されたフレームワークの幾何学的精度を検証します。
15 人の人間の遠隔操作者に対する主観的な評価により、遠隔操作の向上に対する統合機能の有効性がさらに確認されました。
水中洞窟内の洞窟などのナビゲーション ガイドに従うことによる、遠隔 ROV 遠隔操作のための動的な Ego-to-Exo ビュー生成とリアルタイム ポーズ レンダリングの利点を実証します。
このインタラクティブな ROV 遠隔操作の新しい方法は、海底遠隔ロボティクスにおける将来の研究に有望な機会をもたらします。

要約(オリジナル)

Underwater ROVs (Remotely Operated Vehicles) are unmanned submersible vehicles designed for exploring and operating in the depths of the ocean. Despite using high-end cameras, typical teleoperation engines based on first-person (egocentric) views limit a surface operator’s ability to maneuver the ROV in complex deep-water missions. In this paper, we present an interactive teleoperation interface that enhances the operational capabilities via increased situational awareness. This is accomplished by (i) offering on-demand ‘third’-person (exocentric) visuals from past egocentric views, and (ii) facilitating enhanced peripheral information with augmented ROV pose information in real-time. We achieve this by integrating a 3D geometry-based Ego-to-Exo view synthesis algorithm into a monocular SLAM system for accurate trajectory estimation. The proposed closed-form solution only uses past egocentric views from the ROV and a SLAM backbone for pose estimation, which makes it portable to existing ROV platforms. Unlike data-driven solutions, it is invariant to applications and waterbody-specific scenes. We validate the geometric accuracy of the proposed framework through extensive experiments of 2-DOF indoor navigation and 6-DOF underwater cave exploration in challenging low-light conditions. A subjective evaluation on 15 human teleoperators further confirms the effectiveness of the integrated features for improved teleoperation. We demonstrate the benefits of dynamic Ego-to-Exo view generation and real-time pose rendering for remote ROV teleoperation by following navigation guides such as cavelines inside underwater caves. This new way of interactive ROV teleoperation opens up promising opportunities for future research in subsea telerobotics.

arxiv情報

著者 Adnan Abdullah,Ruo Chen,Ioannis Rekleitis,Md Jahidul Islam
発行日 2024-10-15 04:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Ego-to-Exo: Interfacing Third Person Visuals from Egocentric Views in Real-time for Improved ROV Teleoperation はコメントを受け付けていません