Close-Fitting Dressing Assistance Based on State Estimation of Feet and Garments with Semantic-based Visual Attention

要約

人口が老化し続けるにつれて、将来的には介護者の不足が予想されます。
特に、ドレッシングアシスタンスは、社会的参加の機会に不可欠です。
特に、靴下などのぴったりとぴったりの衣服は、衣服の形と位置を考慮しながら、摩擦を処理したり、肌にぶつかるのに、強力な力を調整する必要があるため、困難なままです。
この研究では、ロボットのカメラ画像、関節角度、関節トルクだけでなく、人間の個人差に適応できる適切な力の相互作用のための触覚力も含むマルチモーダル情報を使用する方法を紹介します。
さらに、RGBデータのみに依存するのではなく、オブジェクトの概念に基づいてセマンティック情報を導入することにより、目に見えない足と背景に一般化できます。
さらに、深さデータを組み込むことで、靴下と足の間の相対的な空間的関係を推測するのに役立ちます。
セマンティックオブジェクトの概念化の能力を検証し、安全性を確保するために、マネキンを使用してトレーニングデータを収集し、その後の実験を人間の被験者で実施しました。
実験では、ロボットは以前に目に見えない人間の足に成功し、10人の参加者に靴下を置くことができ、変圧器と拡散ポリシーでチャンキングするよりも高い成功率を達成しました。
これらの結果は、提案されたモデルが衣服と足の両方の状態を推定できることを示しており、近くの衣服のための正確なドレッシング支援を可能にします。

要約(オリジナル)

As the population continues to age, a shortage of caregivers is expected in the future. Dressing assistance, in particular, is crucial for opportunities for social participation. Especially dressing close-fitting garments, such as socks, remains challenging due to the need for fine force adjustments to handle the friction or snagging against the skin, while considering the shape and position of the garment. This study introduces a method uses multi-modal information including not only robot’s camera images, joint angles, joint torques, but also tactile forces for proper force interaction that can adapt to individual differences in humans. Furthermore, by introducing semantic information based on object concepts, rather than relying solely on RGB data, it can be generalized to unseen feet and background. In addition, incorporating depth data helps infer relative spatial relationship between the sock and the foot. To validate its capability for semantic object conceptualization and to ensure safety, training data were collected using a mannequin, and subsequent experiments were conducted with human subjects. In experiments, the robot successfully adapted to previously unseen human feet and was able to put socks on 10 participants, achieving a higher success rate than Action Chunking with Transformer and Diffusion Policy. These results demonstrate that the proposed model can estimate the state of both the garment and the foot, enabling precise dressing assistance for close-fitting garments.

arxiv情報

著者 Takuma Tsukakoshi,Tamon Miyake,Tetsuya Ogata,Yushi Wang,Takumi Akaishi,Shigeki Sugano
発行日 2025-05-06 10:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Close-Fitting Dressing Assistance Based on State Estimation of Feet and Garments with Semantic-based Visual Attention はコメントを受け付けていません

LiftFeat: 3D Geometry-Aware Local Feature Matching

要約

堅牢で効率的なローカル機能マッチングは、スラムやロボット工学の視覚的ローカリゼーションなどのアプリケーションで重要な役割を果たします。
大きな進歩にもかかわらず、劇的な照明の変化、低テクスチャ領域、または反復パターンを備えたシナリオで堅牢で識別的な視覚的特徴を抽出することは依然として非常に困難です。
この論文では、3D幾何学的特徴を集約することにより、生記述子の堅牢性を持ち上げる\ TextIT {LiftFeat}と呼ばれる新しい軽量ネットワークを提案します。
具体的には、最初に事前に訓練された単眼深度推定モデルを採用して、擬似表面正常ラベルを生成し、予測される表面正常の観点から3D幾何学的特徴の抽出を監督します。
次に、3Dジオメトリアウェア機能リフティングモジュールを設計して、RAW 2D記述子機能と表面正常機能を融合します。
このような3D幾何学的特徴を統合すると、極端な条件での2D機能の説明の識別能力が向上します。
相対的なポーズ推定、ホモグラフィーの推定、視覚的ローカリゼーションのタスクに関する広範な実験結果は、私たちのリフトフィートが軽量の最先端の方法を上回ることを示しています。
コードはhttps://github.com/lyp-deeplearning/liftfeatでリリースされます。

要約(オリジナル)

Robust and efficient local feature matching plays a crucial role in applications such as SLAM and visual localization for robotics. Despite great progress, it is still very challenging to extract robust and discriminative visual features in scenarios with drastic lighting changes, low texture areas, or repetitive patterns. In this paper, we propose a new lightweight network called \textit{LiftFeat}, which lifts the robustness of raw descriptor by aggregating 3D geometric feature. Specifically, we first adopt a pre-trained monocular depth estimation model to generate pseudo surface normal label, supervising the extraction of 3D geometric feature in terms of predicted surface normal. We then design a 3D geometry-aware feature lifting module to fuse surface normal feature with raw 2D descriptor feature. Integrating such 3D geometric feature enhances the discriminative ability of 2D feature description in extreme conditions. Extensive experimental results on relative pose estimation, homography estimation, and visual localization tasks, demonstrate that our LiftFeat outperforms some lightweight state-of-the-art methods. Code will be released at : https://github.com/lyp-deeplearning/LiftFeat.

arxiv情報

著者 Yepeng Liu,Wenpeng Lai,Zhou Zhao,Yuxuan Xiong,Jinchi Zhu,Jun Cheng,Yongchao Xu
発行日 2025-05-06 10:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | LiftFeat: 3D Geometry-Aware Local Feature Matching はコメントを受け付けていません

Adversarial and Reactive Traffic Entities for Behavior-Realistic Driving Simulation: A Review

要約

自動運転車(AVS)の認識と計画の進歩にもかかわらず、そのパフォーマンスを検証することは依然として大きな課題です。
実際の環境での計画アルゴリズムの展開は、シミュレーションと実際の交通条件の間の不一致のために、しばしば効果がないことがよくあります。
シミュレーションでAVS計画アルゴリズムを評価するには、通常、記録された現実世界のトラフィックからの運転ログを再生することが含まれます。
ただし、オフラインデータから再生されたエンティティは反応的ではなく、任意のAV行動に応答する能力が欠けており、運転ポリシーの特定の特性をテストするために敵対的な方法で振る舞うことはできません。
したがって、現実的で潜在的に敵対的なエンティティを備えたシミュレーションは、AV計画ソフトウェアの検証のための重要なタスクを表しています。
この作業では、交通シミュレーションの分野での現在の研究努力をレビューし、交通エンティティの現実的で敵対的な行動をモデル化するための高度な技術の適用に焦点を当てることを目指しています。
この作業の目的は、トラフィックエンティティの行動とシナリオ行動制御の提案されたクラスに基づいて、既存のアプローチを分類することです。
さらに、トラフィックデータセットを収集し、採用されているデフォルトのトラフィックエンティティに関する既存のトラフィックシミュレーションを調べます。
最後に、将来の研究の可能性を秘めた課題と未解決の質問を特定します。

要約(オリジナル)

Despite advancements in perception and planning for autonomous vehicles (AVs), validating their performance remains a significant challenge. The deployment of planning algorithms in real-world environments is often ineffective due to discrepancies between simulations and real traffic conditions. Evaluating AVs planning algorithms in simulation typically involves replaying driving logs from recorded real-world traffic. However, entities replayed from offline data are not reactive, lack the ability to respond to arbitrary AV behavior, and cannot behave in an adversarial manner to test certain properties of the driving policy. Therefore, simulation with realistic and potentially adversarial entities represents a critical task for AV planning software validation. In this work, we aim to review current research efforts in the field of traffic simulation, focusing on the application of advanced techniques for modeling realistic and adversarial behaviors of traffic entities. The objective of this work is to categorize existing approaches based on the proposed classes of traffic entity behavior and scenario behavior control. Moreover, we collect traffic datasets and examine existing traffic simulations with respect to their employed default traffic entities. Finally, we identify challenges and open questions that hold potential for future research.

arxiv情報

著者 Joshua Ransiek,Philipp Reis,Tobias Schürmann,Eric Sax
発行日 2025-05-06 11:13:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Adversarial and Reactive Traffic Entities for Behavior-Realistic Driving Simulation: A Review はコメントを受け付けていません

AquaticVision: Benchmarking Visual SLAM in Underwater Environment with Events and Frames

要約

オフショア資産検査などの多くの水中アプリケーションは、目視検査と詳細な3D再建に依存しています。
水生環境向けの水中ビジュアルスラムシステムにおける最近の進歩は、海洋ロボットの研究で大きな注目を集めています。
ただし、既存の水中の視覚的なスラムデータセットにはグラウンドトゥルース軌道データが欠けていることが多く、定性的な結果またはCOLMAP再構成のみに基づいて、異なるスラムアルゴリズムのパフォーマンスを客観的に比較することが困難です。
このホワイトペーパーでは、モーションキャプチャシステムを使用して取得したグラウンドトゥルース軌道データを含む新しい水中データセットを紹介します。
さらに、初めて、水中の視覚的ポジショニングをベンチマークするためのイベントとフレームの両方を含む視覚データをリリースします。
イベントカメラデータを提供することにより、より堅牢で高度な水中視覚スラムアルゴリズムの開発を促進することを目指しています。
イベントカメラの使用は、非常に低い光またはぼんやりとした水中条件によってもたらされる課題を軽減するのに役立ちます。
データセットのWebページはhttps://sites.google.com/view/aquaticvision-liasです。

要約(オリジナル)

Many underwater applications, such as offshore asset inspections, rely on visual inspection and detailed 3D reconstruction. Recent advancements in underwater visual SLAM systems for aquatic environments have garnered significant attention in marine robotics research. However, existing underwater visual SLAM datasets often lack groundtruth trajectory data, making it difficult to objectively compare the performance of different SLAM algorithms based solely on qualitative results or COLMAP reconstruction. In this paper, we present a novel underwater dataset that includes ground truth trajectory data obtained using a motion capture system. Additionally, for the first time, we release visual data that includes both events and frames for benchmarking underwater visual positioning. By providing event camera data, we aim to facilitate the development of more robust and advanced underwater visual SLAM algorithms. The use of event cameras can help mitigate challenges posed by extremely low light or hazy underwater conditions. The webpage of our dataset is https://sites.google.com/view/aquaticvision-lias.

arxiv情報

著者 Yifan Peng,Yuze Hong,Ziyang Hong,Apple Pui-Yi Chui,Junfeng Wu
発行日 2025-05-06 11:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | AquaticVision: Benchmarking Visual SLAM in Underwater Environment with Events and Frames はコメントを受け付けていません

LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs

要約

インテリジェントロジスティクスの需要の増大、特に細粒のターミナルデリバリーは、自律UAV(無人航空機)ベースの配信システムの必要性を強調しています。
ただし、ほとんどの既存のラストマイル配信研究は地上ロボットに依存していますが、現在のUAVベースのビジョン言語ナビゲーション(VLN)タスクは、主に粗粒の長距離目標に焦点を当てており、正確な端子配信に不適切です。
このギャップを埋めるために、自律末端配信のためにマルチモーダル大手言語モデル(MLLM)に基づいて構築されたスケーラブルな空中配信システムであるLogisticsVlnを提案します。
LogisticsVLNは、リクエストの理解、床のローカリゼーション、オブジェクト検出、およびアクション決定の作成のためのモジュラーパイプラインに、軽量の大手言語モデル(LLMS)および視覚言語モデル(VLM)を統合します。
この新しい設定での研究と評価をサポートするために、Carlaシミュレーター内でVision-Language Delivery(VLD)データセットを構築します。
VLDデータセットの実験結果は、LogisticsVLNシステムの実現可能性を示しています。
さらに、システムの各モジュールのサブタスクレベルの評価を実施し、基礎モデルベースの視覚言語配信システムの堅牢性と実際の展開を改善するための貴重な洞察を提供します。

要約(オリジナル)

The growing demand for intelligent logistics, particularly fine-grained terminal delivery, underscores the need for autonomous UAV (Unmanned Aerial Vehicle)-based delivery systems. However, most existing last-mile delivery studies rely on ground robots, while current UAV-based Vision-Language Navigation (VLN) tasks primarily focus on coarse-grained, long-range goals, making them unsuitable for precise terminal delivery. To bridge this gap, we propose LogisticsVLN, a scalable aerial delivery system built on multimodal large language models (MLLMs) for autonomous terminal delivery. LogisticsVLN integrates lightweight Large Language Models (LLMs) and Visual-Language Models (VLMs) in a modular pipeline for request understanding, floor localization, object detection, and action-decision making. To support research and evaluation in this new setting, we construct the Vision-Language Delivery (VLD) dataset within the CARLA simulator. Experimental results on the VLD dataset showcase the feasibility of the LogisticsVLN system. In addition, we conduct subtask-level evaluations of each module of our system, offering valuable insights for improving the robustness and real-world deployment of foundation model-based vision-language delivery systems.

arxiv情報

著者 Xinyuan Zhang,Yonglin Tian,Fei Lin,Yue Liu,Jing Ma,Kornélia Sára Szatmáry,Fei-Yue Wang
発行日 2025-05-06 12:00:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | LogisticsVLN: Vision-Language Navigation For Low-Altitude Terminal Delivery Based on Agentic UAVs はコメントを受け付けていません

Task Reconstruction and Extrapolation for $π_0$ using Text Latent

要約

Vision-Language-actionモデル(VLA)は、多くの場合、実証されたタスクで高性能を達成しますが、異なるタスクから学んだスキルを斬新な方法で組み合わせるために必要な場合は大幅に苦労します。
たとえば、VLAはクリームチーズをボウルの中に置き、キャビネットの上にボウルを置くことに成功する可能性がありますが、それでもキャビネットの上にクリームチーズを置くことができません。
この作業では、推論時にVLAの内部表現を操作することにより、異なるタスクからの行動を効果的に再結合できることを実証します。
具体的には、特定のベースタスクのすべての実証された軌跡にわたってテキストトークンの非表示状態を平均することにより、テキストが潜在することを識別します。
外挿されたタスクを実行するために、2つのベースタスクの潜在的なテキストを一時的に補間し、それをテキストの隠された状態に追加することができます。そのため、2つのタスクからのサブベハビアーは順次アクティブになります。
このアプローチを、新しく作成したリベロウッドベンチマークを使用して、標準的なリベロスイートから外挿された20のタスクを備えたものを評価します。
Libero-Ooodの結果は、すべてのSOTA VLAが15%未満の成功率を達成し、テキスト潜在補間を備えた$ \ PI0 $が83%の成功率に達することを示しています。
さらなる定性分析により、VLAが本物のオブジェクトと目標の理解を達成するのではなく、実証された場所にオブジェクト名を空間的に過剰に適合させる傾向が示されます。
さらに、テキストの潜在的な潜在性を解読すると、標準的なリベロスイートで70%の成功率を達成するようVLAに指示し、プライベートな指導やバックドア攻撃を可能にするように指示できることがわかります。

要約(オリジナル)

Vision-language-action models (VLAs) often achieve high performance on demonstrated tasks but struggle significantly when required to extrapolate, combining skills learned from different tasks in novel ways. For instance, VLAs might successfully put the cream cheese in the bowl and put the bowl on top of the cabinet, yet still fail to put the cream cheese on top of the cabinet. In this work, we demonstrate that behaviors from distinct tasks can be effectively recombined by manipulating the VLA’s internal representations at inference time. Concretely, we identify the text latent by averaging the text tokens’ hidden states across all demonstrated trajectories for a specific base task. For executing an extrapolated task, we can temporally interpolate the text latent of the two base tasks and add it back to the text hidden states, so sub-behaviors from the two tasks will be activated sequentially. We evaluate this approach using the newly created libero-ood benchmark, featuring 20 tasks extrapolated from standard LIBERO suites. The results on libero-ood show that all SOTA VLAs achieve < 15% success rate, while $\pi0$ with text latent interpolation reaches an 83% success rate. Further qualitative analysis reveals a tendency for VLAs to exhibit spatial overfitting, mapping object names to demonstrated locations rather than achieving genuine object and goal understanding. Additionally, we find that decoding the text latent yields human-unreadable prompts that can nevertheless instruct the VLA to achieve a 70% success rate on standard LIBERO suites, enabling private instruction or backdoor attacks.

arxiv情報

著者 Quanyi Li
発行日 2025-05-06 13:05:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Task Reconstruction and Extrapolation for $π_0$ using Text Latent はコメントを受け付けていません

Artificial Protozoa Optimizer (APO): A novel bio-inspired metaheuristic algorithm for engineering optimization

要約

この研究では、本質的に原生動物に触発された新しい人工プロトゾアオプティマイザー(APO)を提案しています。
APOは、採餌、休眠、および生殖行動をシミュレートすることにより、原生動物の生存メカニズムを模倣します。
APOは数学的にモデル化および実装され、メタヒューリスティックアルゴリズムの最適化プロセスを実行しました。
APOのパフォーマンスは、実験シミュレーションを介して検証され、32の最先端のアルゴリズムと比較されました。
Wilcoxon署名されたランクテストは、提案されたAPOの最先端のアルゴリズムとのペアワイズ比較のために実行され、フリードマンテストが複数の比較に使用されました。
最初に、APOは、進化的計算ベンチマークに関する2022 IEEE Con​​gressの12の機能を使用してテストされました。
実用性を考慮して、提案されたAPOを使用して、制約のある連続空間で5つの一般的なエンジニアリング設計上の問題を解決しました。
さらに、APOを適用して、制約のある離散空間でマルチレベルの画像セグメンテーションタスクを解決しました。
この実験では、APOが最適化の問題に対して非常に競争力のある結果を提供できることが確認されました。
人工プロトゾアオプティマイザーのソースコードは、https://seyedalimirjalili.com/project://ww2.mathworks.cn/matlabcentral/fileexchange/162656-artificial-protozoa-optimizerで公開されています。

要約(オリジナル)

This study proposes a novel artificial protozoa optimizer (APO) that is inspired by protozoa in nature. The APO mimics the survival mechanisms of protozoa by simulating their foraging, dormancy, and reproductive behaviors. The APO was mathematically modeled and implemented to perform the optimization processes of metaheuristic algorithms. The performance of the APO was verified via experimental simulations and compared with 32 state-of-the-art algorithms. Wilcoxon signed-rank test was performed for pairwise comparisons of the proposed APO with the state-of-the-art algorithms, and Friedman test was used for multiple comparisons. First, the APO was tested using 12 functions of the 2022 IEEE Congress on Evolutionary Computation benchmark. Considering practicality, the proposed APO was used to solve five popular engineering design problems in a continuous space with constraints. Moreover, the APO was applied to solve a multilevel image segmentation task in a discrete space with constraints. The experiments confirmed that the APO could provide highly competitive results for optimization problems. The source codes of Artificial Protozoa Optimizer are publicly available at https://seyedalimirjalili.com/projects and https://ww2.mathworks.cn/matlabcentral/fileexchange/162656-artificial-protozoa-optimizer.

arxiv情報

著者 Xiaopeng Wang,Vaclav Snasel,Seyedali Mirjalili,Jeng-Shyang Pan,Lingping Kong,Hisham A. Shehadeh
発行日 2025-05-06 13:22:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NE, cs.RO | Artificial Protozoa Optimizer (APO): A novel bio-inspired metaheuristic algorithm for engineering optimization はコメントを受け付けていません

ReLI: A Language-Agnostic Approach to Human-Robot Interaction

要約

自律エージェントを産業、国内、およびその他の毎日のタスクに適応させることは、現在勢いを増しています。
ただし、グローバルまたは横断的アプリケーションのコンテキストでは、環境との効果的な相互作用を確保し、無制限の人間のタスク指定された指示を多様な言語で実行することは未解決の問題です。
この課題に対処するために、自律的なエージェントが自然に会話できるように設計された言語に依存しないフレームワークであるReliを提案します。タスク命令の言語起源に関係なく、自律的なエージェントが環境について意味的に推論し、下流のタスクを実行することを提案します。
第一に、大規模な事前訓練を受けた基礎モデルを接地し、それらを言語から行動モデルに変換し、自然なフリーフローの人間ロボット会話相互作用を通じて、常識的な推論と高レベルのロボット制御を直接提供できます。
さらに、モデルの横断的な接地を実行して、グローバル言語全体で信頼を一般化することを保証します。
Reliの堅牢性を実証するために、ゼロショットや少数のショットの空間ナビゲーション、シーン情報の検索、クエリ指向のタスクなど、さまざまな短いホリゾンタスクおよびクエリ指向のタスクを含む、さまざまな短いホリゾンタスクで広範なシミュレーションおよび実世界の実験を実施しました。
70K以上のマルチターン会話を含む140の言語でのパフォーマンスをベンチマークしました。
平均して、Reliは90%を超える$ \ PMを超えて達成しました。違反の指示の解析とタスク実行の成功率の精度は0.2 $ 0.2でした。
これらの結果は、言語の多様性を擁護しながら、現実の世界での自然な人間とロボットの相互作用を強化する信頼の可能性を示しています。
デモンストレーションとリソースは、https://linusnep.github.io/reli/で公開されます。

要約(オリジナル)

Adapting autonomous agents to industrial, domestic, and other daily tasks is currently gaining momentum. However, in the global or cross-lingual application contexts, ensuring effective interaction with the environment and executing unrestricted human task-specified instructions in diverse languages remains an unsolved problem. To address this challenge, we propose ReLI, a language-agnostic framework designed to enable autonomous agents to converse naturally, semantically reason about the environment, and to perform downstream tasks, regardless of the task instruction’s linguistic origin. First, we ground large-scale pre-trained foundation models and transform them into language-to-action models that can directly provide common-sense reasoning and high-level robot control through natural, free-flow human-robot conversational interactions. Further, we perform cross-lingual grounding of the models to ensure that ReLI generalises across the global languages. To demonstrate the ReLI’s robustness, we conducted extensive simulated and real-world experiments on various short- and long-horizon tasks, including zero-shot and few-shot spatial navigation, scene information retrieval, and query-oriented tasks. We benchmarked the performance on 140 languages involving over 70K multi-turn conversations. On average, ReLI achieved over 90%$\pm$0.2 accuracy in cross-lingual instruction parsing and task execution success rates. These results demonstrate the ReLI’s potential to enhance natural human-robot interaction in the real world while championing linguistic diversity. Demonstrations and resources will be publicly available at https://linusnep.github.io/ReLI/.

arxiv情報

著者 Linus Nwankwo,Bjoern Ellensohn,Ozan Özdenizci,Elmar Rueckert
発行日 2025-05-06 13:46:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | ReLI: A Language-Agnostic Approach to Human-Robot Interaction はコメントを受け付けていません

Automated Action Generation based on Action Field for Robotic Garment Manipulation

要約

ロボットシステムを使用した衣服の操作は、生地の形状と変形可能な性質のために、挑戦的な作業です。
この論文では、以前のアプローチと比較して計算時間を短縮しながら精度を大幅に向上させるロボット衣服操作の新しい方法を提案します。
私たちの方法は、シーン画像を直接解釈し、ニューラルネットワークを使用してピクセルごとのエンドエフェクターアクションベクトルを生成するアクションジェネレーターを備えています。
ネットワークは、潜在的なアクションをランク付けする操作スコアマップも予測し、システムが最も効果的なアクションを選択できるようにします。
広範なシミュレーション実験は、この方法が以前のアプローチよりも高い展開とアライメントのパフォーマンスと速い計算時間を達成することを示しています。
現実世界の実験は、提案された方法がさまざまな衣服の種類によく一般化し、衣服をうまく平坦化することを示しています。

要約(オリジナル)

Garment manipulation using robotic systems is a challenging task due to the diverse shapes and deformable nature of fabric. In this paper, we propose a novel method for robotic garment manipulation that significantly improves the accuracy while reducing computational time compared to previous approaches. Our method features an action generator that directly interprets scene images and generates pixel-wise end-effector action vectors using a neural network. The network also predicts a manipulation score map that ranks potential actions, allowing the system to select the most effective action. Extensive simulation experiments demonstrate that our method achieves higher unfolding and alignment performances and faster computation time than previous approaches. Real-world experiments show that the proposed method generalizes well to different garment types and successfully flattens garments.

arxiv情報

著者 Hu Cheng,Fuyuki Tokuda,Kazuhiro Kosuge
発行日 2025-05-06 13:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Automated Action Generation based on Action Field for Robotic Garment Manipulation はコメントを受け付けていません

Thermal-LiDAR Fusion for Robust Tunnel Localization in GNSS-Denied and Low-Visibility Conditions

要約

自律的な航海の大幅な進歩にもかかわらず、トンネル、都市災害ゾーン、地下構造などの危険な環境での信頼できるローカリゼーションを確保することには、重大なギャップが残っています。
トンネルは、ユニークな困難なシナリオを提示します。GNSS信号損失に陥りやすいだけでなく、繰り返しの壁や照明不良のために視覚的なローカリゼーションの機能はほとんど提供されません。
これらの条件は、識別可能な環境機能に依存する従来の視覚ベースおよびライダーベースのシステムを分解します。
これに対処するために、トンネルやその他の知覚的に劣化した環境での堅牢なローカリゼーションを可能にするために、サーマルカメラをライダーと統合する新しいセンサー融合フレームワークを提案します。
サーマルカメラは、低光または煙の状態で回復力を提供しますが、Lidarは正確な深さの知覚と構造認識を提供します。
これらのセンサーを組み合わせることにより、当社のフレームワークは、多様で動的な環境にわたって継続的かつ正確なローカリゼーションを保証します。
拡張されたKalmanフィルター(EKF)を使用してマルチセンサー入力を融合し、視覚的な臭気とスラム(同時ローカリゼーションとマッピング)技術をレバレッジしてセンサーデータを処理し、GNSSが重む環境でも堅牢なモーション推定とマッピングを可能にします。
センサーモダリティのこの融合は、システムの回復力を高めるだけでなく、接続された車両および自律車両(Cavs)のサイバー物理システムにスケーラブルなソリューションを提供します。
フレームワークを検証するために、トンネル環境でテストを実施し、センサーの劣化と視認性の課題をシミュレートします。
結果は、私たちの方法が、トンネルの特徴のないジオメトリのために標準的なアプローチが悪化する正確なローカリゼーションを維持することを示しています。
フレームワークの汎用性により、自動運転車、検査ロボット、および制約された知覚的に貧弱な環境で動作する他のサイバー物理システムの有望なソリューションになります。

要約(オリジナル)

Despite significant progress in autonomous navigation, a critical gap remains in ensuring reliable localization in hazardous environments such as tunnels, urban disaster zones, and underground structures. Tunnels present a uniquely difficult scenario: they are not only prone to GNSS signal loss, but also provide little features for visual localization due to their repetitive walls and poor lighting. These conditions degrade conventional vision-based and LiDAR-based systems, which rely on distinguishable environmental features. To address this, we propose a novel sensor fusion framework that integrates a thermal camera with a LiDAR to enable robust localization in tunnels and other perceptually degraded environments. The thermal camera provides resilience in low-light or smoke conditions, while the LiDAR delivers precise depth perception and structural awareness. By combining these sensors, our framework ensures continuous and accurate localization across diverse and dynamic environments. We use an Extended Kalman Filter (EKF) to fuse multi-sensor inputs, and leverages visual odometry and SLAM (Simultaneous Localization and Mapping) techniques to process the sensor data, enabling robust motion estimation and mapping even in GNSS-denied environments. This fusion of sensor modalities not only enhances system resilience but also provides a scalable solution for cyber-physical systems in connected and autonomous vehicles (CAVs). To validate the framework, we conduct tests in a tunnel environment, simulating sensor degradation and visibility challenges. The results demonstrate that our method sustains accurate localization where standard approaches deteriorate due to the tunnels featureless geometry. The frameworks versatility makes it a promising solution for autonomous vehicles, inspection robots, and other cyber-physical systems operating in constrained, perceptually poor environments.

arxiv情報

著者 Lukas Schichler,Karin Festl,Selim Solmaz,Daniel Watzenig
発行日 2025-05-06 14:21:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Thermal-LiDAR Fusion for Robust Tunnel Localization in GNSS-Denied and Low-Visibility Conditions はコメントを受け付けていません