Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks

要約

教師なし領域適応(UDA)フレームワークは、クリーンデータ上の3次元点群セマンティックセグメンテーションモデルに対して、優れた汎化能力を示してきた。しかし、既存の研究では、ソースドメイン自体が侵害された場合の敵対的なロバスト性を見落としている。UDAフレームワークの頑健性を包括的に調査するために、我々はまず、点群表面へのわずかな摂動だけでデータセットを著しく汚染できる、敵対的な点群生成攻撃を設計する。それに基づいて、汚染されたLiDAR点群を合成した新しいデータセットAdvSynLiDARを提案する。生成された汚染データを用いて、我々はさらに対策としてAdversarial Adaptation Framework (AAF)を開発する。具体的には、キーポイントセンシティブ(KPS)損失をロバストロングテール損失(RLT損失)へと拡張し、デコーダブランチを利用することで、我々のアプローチは、事前学習フェーズにおいてモデルがロングテールクラスにフォーカスすることを可能にし、適応フェーズにおいて点群構造を復元するために高信頼度のデコードされた点群情報を活用する。我々のAAF手法をAdvSynLiDARデータセットで評価した結果、我々のAAF手法は、3D点群セグメンテーションアプリケーションにおけるUDAのソース敵対的摂動下での性能劣化を軽減できることが実証された。

要約(オリジナル)

Unsupervised domain adaptation (UDA) frameworks have shown good generalization capabilities for 3D point cloud semantic segmentation models on clean data. However, existing works overlook adversarial robustness when the source domain itself is compromised. To comprehensively explore the robustness of the UDA frameworks, we first design a stealthy adversarial point cloud generation attack that can significantly contaminate datasets with only minor perturbations to the point cloud surface. Based on that, we propose a novel dataset, AdvSynLiDAR, comprising synthesized contaminated LiDAR point clouds. With the generated corrupted data, we further develop the Adversarial Adaptation Framework (AAF) as the countermeasure. Specifically, by extending the key point sensitive (KPS) loss towards the Robust Long-Tail loss (RLT loss) and utilizing a decoder branch, our approach enables the model to focus on long-tail classes during the pre-training phase and leverages high-confidence decoded point cloud information to restore point cloud structures during the adaptation phase. We evaluated our AAF method on the AdvSynLiDAR dataset, where the results demonstrate that our AAF method can mitigate performance degradation under source adversarial perturbations for UDA in the 3D point cloud segmentation application.

arxiv情報

著者 Haosheng Li,Junjie Chen,Yuecong Xu,Kemi Ding
発行日 2025-04-03 02:58:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Robust Unsupervised Domain Adaptation for 3D Point Cloud Segmentation Under Source Adversarial Attacks はコメントを受け付けていません

Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting

要約

鳥瞰(BEV)知覚は、複数の視点画像を融合するための統一的な表現を提供し、予測や計画などの幅広い自律走行タスクを可能にするため、大きな注目を集めている。最近の最先端モデルは、投影ベースの手法を利用しており、BEV知覚をクエリ学習として定式化し、明示的な奥行き推定を回避している。このパラダイムでは有望な進歩が見られるが、不確実性モデリングの欠如と高価な計算要件のため、実世界への応用にはまだ不十分である。本研究では、非投影に基づく手法、特にLSS(Lift-Splat-Shoot)パラダイムを再検討し、奥行きの非確実性モデリングにより強化した、不確実性を考慮した新しいBEV知覚フレームワークであるGaussianLSSを紹介する。GaussianLSSは、ソフトな奥行き平均を学習し、奥行き分布の分散を計算することで、空間分散を表現する。次に、奥行き分布を3Dガウシアンに変換し、それらをラスタライズして、不確実性を考慮したBEV特徴を構築する。nuScenesデータセットでGaussianLSSを評価し、非投影ベースの手法と比較して最先端の性能を達成した。特に、GaussianLSSは、投影ベースの手法と比較して2.5倍高速に動作し、メモリ効率において0.3倍少ないメモリを使用しながら、わずか0.4%のIoU差で競争力のある性能を達成し、大きな利点を提供する。

要約(オリジナル)

Bird’s-eye view (BEV) perception has gained significant attention because it provides a unified representation to fuse multiple view images and enables a wide range of down-stream autonomous driving tasks, such as forecasting and planning. Recent state-of-the-art models utilize projection-based methods which formulate BEV perception as query learning to bypass explicit depth estimation. While we observe promising advancements in this paradigm, they still fall short of real-world applications because of the lack of uncertainty modeling and expensive computational requirement. In this work, we introduce GaussianLSS, a novel uncertainty-aware BEV perception framework that revisits unprojection-based methods, specifically the Lift-Splat-Shoot (LSS) paradigm, and enhances them with depth un-certainty modeling. GaussianLSS represents spatial dispersion by learning a soft depth mean and computing the variance of the depth distribution, which implicitly captures object extents. We then transform the depth distribution into 3D Gaussians and rasterize them to construct uncertainty-aware BEV features. We evaluate GaussianLSS on the nuScenes dataset, achieving state-of-the-art performance compared to unprojection-based methods. In particular, it provides significant advantages in speed, running 2.5x faster, and in memory efficiency, using 0.3x less memory compared to projection-based methods, while achieving competitive performance with only a 0.4% IoU difference.

arxiv情報

著者 Shu-Wei Lu,Yi-Hsuan Tsai,Yi-Ting Chen
発行日 2025-04-03 07:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Toward Real-world BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting はコメントを受け付けていません

Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control

要約

セグメンテーション、深さ、エッジなどのさまざまなモダリティの複数の空間制御入力に基づいて世界シミュレーションを生成できる条件付き世界生成モデルであるCosmos-Transferを紹介します。
設計では、空間条件スキームは適応性があり、カスタマイズ可能です。
さまざまな空間位置で異なる条件付き入力を異なる重み付けすることができます。
これにより、非常に制御可能な世界生成が可能になり、SIM2REALを含むさまざまな世界から世界への転送ユースケースでの使用が見つかります。
提案されたモデルを分析するために広範な評価を実施し、ロボット工学SIM2REALや自律車両データの濃縮など、物理AIのアプリケーションを実証します。
さらに、NVIDIA GB200 NVL72ラックを使用してリアルタイムの世界生成を達成するための推論スケーリング戦略を実証します。
この分野での研究開発を加速するために、https://github.com/nvidia-cosmos/cosmos-transfer1でモデルとコードをオープンソーシングします。

要約(オリジナル)

We introduce Cosmos-Transfer, a conditional world generation model that can generate world simulations based on multiple spatial control inputs of various modalities such as segmentation, depth, and edge. In the design, the spatial conditional scheme is adaptive and customizable. It allows weighting different conditional inputs differently at different spatial locations. This enables highly controllable world generation and finds use in various world-to-world transfer use cases, including Sim2Real. We conduct extensive evaluations to analyze the proposed model and demonstrate its applications for Physical AI, including robotics Sim2Real and autonomous vehicle data enrichment. We further demonstrate an inference scaling strategy to achieve real-time world generation with an NVIDIA GB200 NVL72 rack. To help accelerate research development in the field, we open-source our models and code at https://github.com/nvidia-cosmos/cosmos-transfer1.

arxiv情報

著者 NVIDIA,:,Hassan Abu Alhaija,Jose Alvarez,Maciej Bala,Tiffany Cai,Tianshi Cao,Liz Cha,Joshua Chen,Mike Chen,Francesco Ferroni,Sanja Fidler,Dieter Fox,Yunhao Ge,Jinwei Gu,Ali Hassani,Michael Isaev,Pooya Jannaty,Shiyi Lan,Tobias Lasser,Huan Ling,Ming-Yu Liu,Xian Liu,Yifan Lu,Alice Luo,Qianli Ma,Hanzi Mao,Fabio Ramos,Xuanchi Ren,Tianchang Shen,Xinglong Sun,Shitao Tang,Ting-Chun Wang,Jay Wu,Jiashu Xu,Stella Xu,Kevin Xie,Yuchong Ye,Xiaodong Yang,Xiaohui Zeng,Yu Zeng
発行日 2025-04-01 21:14:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Cosmos-Transfer1: Conditional World Generation with Adaptive Multimodal Control はコメントを受け付けていません

VizFlyt: Perception-centric Pedagogical Framework For Autonomous Aerial Robots

要約

私たちの生活の中で自律的な航空ロボットが一般的になっています。
実践的な航空ロボットコースは、成長する市場の需要を満たすために、次世代の労働力を訓練する上で極めて重要です。
このような効率的で説得力のあるコースは、信頼できるテストベッドに依存します。
このホワイトペーパーでは、航空ロボットコースのオープンソースの知覚中心のハードウェア(HITL)フォトリアリスティックテストフレームワークであるVizflytを紹介します。
3Dガウスのスプラッティングを使用して、外部のローカリゼーションシステムからのポーズを活用して、リアルタイムおよびフォトリアリックな視覚センサーを幻覚させます。
これにより、障害物に衝突するリスクなしに、航空ロボットでの自律アルゴリズムのストレスのないテストが可能になります。
100Hz以上のシステムアップデートレートを達成します。
最後に、実践的な空中ロボットコースを提供する過去の経験に基づいて、将来のVizflytに基づいた新しいオープンソースとオープンハードウェアカリキュラムを提案します。
実際のHITL実験でさまざまなコースプロジェクトでフレームワークをテストし、そのようなシステムの有効性とその大きな潜在的なユースケースを示す結果を提示します。
コード、データセット、ハードウェアガイド、デモビデオはhttps://pear.wpi.edu/research/vizflyt.htmlで入手できます。

要約(オリジナル)

Autonomous aerial robots are becoming commonplace in our lives. Hands-on aerial robotics courses are pivotal in training the next-generation workforce to meet the growing market demands. Such an efficient and compelling course depends on a reliable testbed. In this paper, we present VizFlyt, an open-source perception-centric Hardware-In-The-Loop (HITL) photorealistic testing framework for aerial robotics courses. We utilize pose from an external localization system to hallucinate real-time and photorealistic visual sensors using 3D Gaussian Splatting. This enables stress-free testing of autonomy algorithms on aerial robots without the risk of crashing into obstacles. We achieve over 100Hz of system update rate. Lastly, we build upon our past experiences of offering hands-on aerial robotics courses and propose a new open-source and open-hardware curriculum based on VizFlyt for the future. We test our framework on various course projects in real-world HITL experiments and present the results showing the efficacy of such a system and its large potential use cases. Code, datasets, hardware guides and demo videos are available at https://pear.wpi.edu/research/vizflyt.html

arxiv情報

著者 Kushagra Srivastava,Rutwik Kulkarni,Manoj Velmurugan,Nitin J. Sanket
発行日 2025-04-01 22:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | VizFlyt: Perception-centric Pedagogical Framework For Autonomous Aerial Robots はコメントを受け付けていません

Emotion estimation from video footage with LSTM

要約

一般的な感情の推定は、長い間研究されてきた分野であり、機械学習を使用していくつかのアプローチが存在します。
このホワイトペーパーでは、カメラのライブストリームで検出された顔のためにライブラリメディアピペが生成するブレンド形状を処理するLSTMモデルを提示して、表情から主な感情を推定するために、このモデルはFER2013データセットでトレーニングされ、71%の精度と62%のF1%DATATEMESTを削減するために62%F1%のDATASEを削減する結果を提供します。
費用。
https://github.com/samir-atra/emotion_estimation_from_video_footage_with_lstm_ml_algorithm

要約(オリジナル)

Emotion estimation in general is a field that has been studied for a long time, and several approaches exist using machine learning. in this paper, we present an LSTM model, that processes the blend-shapes produced by the library MediaPipe, for a face detected in a live stream of a camera, to estimate the main emotion from the facial expressions, this model is trained on the FER2013 dataset and delivers a result of 71% accuracy and 62% f1-score which meets the accuracy benchmark of the FER2013 dataset, with significantly reduced computation costs. https://github.com/Samir-atra/Emotion_estimation_from_video_footage_with_LSTM_ML_algorithm

arxiv情報

著者 Samer Attrah
発行日 2025-04-01 23:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T40, cs.CV, cs.LG, cs.RO, I.2.9 | Emotion estimation from video footage with LSTM はコメントを受け付けていません

FUSION: Frequency-guided Underwater Spatial Image recOnstructioN

要約

水中画像は、色の歪み、視界の低下、波長依存性の減衰と散乱による構造の詳細の喪失など、重度の劣化に苦しんでいます。
既存の強化方法は、主に空間ドメイン処理に焦点を当て、グローバルな色分布と長距離依存関係をキャプチャする周波数領域の可能性を無視します。
これらの制限に対処するために、空間および周波数ドメイン情報を共同で活用するデュアルドメインの深い学習フレームワークであるFusionを提案します。
融合は、空間ドメインのマルチスケール畳み込みカーネルと適応的注意メカニズムを介して各RGBチャネルを独立して処理し、同時にFFTベースの周波数注意を介してグローバルな構造情報を抽出します。
周波数ガイド付き融合モジュールは、両方のドメインの補完的な機能を統合し、その後、チャネル間融合と適応チャネルの再調整が続き、バランスの取れた色の分布を確保します。
ベンチマークデータセット(UIEB、EUVP、SUIM-E)に関する広範な実験は、融合が再構成の忠実度(UIEBで0.883の23.717 DBおよびSSIMの最高のPSNR)で一貫して最先端のパフォーマンスを達成し、一貫して既存の方法を上回ることを示しています。
UIEBの3.414のUIQM)、パラメーターが大幅に少ない(0.28m)と計算の複雑さが低いことが必要であり、リアルタイムの水中イメージングアプリケーションへの適合性を示しています。

要約(オリジナル)

Underwater images suffer from severe degradations, including color distortions, reduced visibility, and loss of structural details due to wavelength-dependent attenuation and scattering. Existing enhancement methods primarily focus on spatial-domain processing, neglecting the frequency domain’s potential to capture global color distributions and long-range dependencies. To address these limitations, we propose FUSION, a dual-domain deep learning framework that jointly leverages spatial and frequency domain information. FUSION independently processes each RGB channel through multi-scale convolutional kernels and adaptive attention mechanisms in the spatial domain, while simultaneously extracting global structural information via FFT-based frequency attention. A Frequency Guided Fusion module integrates complementary features from both domains, followed by inter-channel fusion and adaptive channel recalibration to ensure balanced color distributions. Extensive experiments on benchmark datasets (UIEB, EUVP, SUIM-E) demonstrate that FUSION achieves state-of-the-art performance, consistently outperforming existing methods in reconstruction fidelity (highest PSNR of 23.717 dB and SSIM of 0.883 on UIEB), perceptual quality (lowest LPIPS of 0.112 on UIEB), and visual enhancement metrics (best UIQM of 3.414 on UIEB), while requiring significantly fewer parameters (0.28M) and lower computational complexity, demonstrating its suitability for real-time underwater imaging applications.

arxiv情報

著者 Jaskaran Singh Walia,Shravan Venkatraman,Pavithra LK
発行日 2025-04-01 23:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | FUSION: Frequency-guided Underwater Spatial Image recOnstructioN はコメントを受け付けていません

Plan-and-Act using Large Language Models for Interactive Agreement

要約

最近の大規模な言語モデル(LLM)は、ロボットアクションを計画することができます。
この論文では、状況的な人間とロボットの相互作用(HRI)を含むタスクでアクションを計画するためにLLMを使用する方法を探ります。
状況的HRIでLLMを適用する重要な問題は、「現在の人間の活動を尊重する」と「ロボットのタスクの優先順位付け」のバランスをとることと、LLMを使用してアクションプランを生成するタイミングを理解することです。
この論文では、上記の問題を解決するために必要な計画とアクションのスキル設計を提案します。
ロボットがパッシブ /アクティブな相互作用動作を切り替えることを可能にするための重要な要因は、現在のロボットのアクションに関するアクションテキストをLLMに提供することであることを示します。
また、適切なタイミングでアクションを計画するためには、LLMへの第2段階の質問(LLMを呼び出す次のタイミングについて)が必要であることを示します。
スキルデザインはエンゲージスキルに適用され、4つの異なるインタラクションシナリオでテストされます。
スキルデザインを使用することにより、LLMSを活用して、テストシナリオで合理的な成功率が90%に達するため、異なるHRIシナリオに簡単にスケーリングできることを示します。

要約(オリジナル)

Recent large language models (LLMs) are capable of planning robot actions. In this paper, we explore how LLMs can be used for planning actions with tasks involving situational human-robot interaction (HRI). A key problem of applying LLMs in situational HRI is balancing between ‘respecting the current human’s activity’ and ‘prioritizing the robot’s task,’ as well as understanding the timing of when to use the LLM to generate an action plan. In this paper, we propose a necessary plan-and-act skill design to solve the above problems. We show that a critical factor for enabling a robot to switch between passive / active interaction behavior is to provide the LLM with an action text about the current robot’s action. We also show that a second-stage question to the LLM (about the next timing to call the LLM) is necessary for planning actions at an appropriate timing. The skill design is applied to an Engage skill and is tested on four distinct interaction scenarios. We show that by using the skill design, LLMs can be leveraged to easily scale to different HRI scenarios with a reasonable success rate reaching 90% on the test scenarios.

arxiv情報

著者 Kazuhiro Sasabuchi,Naoki Wake,Atsushi Kanehira,Jun Takamatsu,Katsushi Ikeuchi
発行日 2025-04-01 23:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Plan-and-Act using Large Language Models for Interactive Agreement はコメントを受け付けていません

The Social Life of Industrial Arms: How Arousal and Attention Shape Human-Robot Interaction

要約

この研究では、非人類のロボットマニピュレーターに対する人間の認識が、ロボットの動きのエネルギーと表現力と定義される覚醒の2つの重要な側面によってどのように形成されるかを探ります。
視線のような注意エンジンを覚醒変調モーションシステムと統合して、社会的に意味のある動作を生成する新しいコントロールアーキテクチャを紹介します。
ユーザー調査では、ユーザーに積極的に焦点を向けることを示すロボットは、より暖かく、より有能で、意図的で、リアルなものとして認識されていることがわかります。
対照的に、高覚醒 – 速く、広大で、エネルギッシュな動きを特徴とする – は、不快感と妨害の認識を高めます。
重要なことに、集中的な注意と中程度の覚醒の組み合わせは、信頼と社交性の最高の評価をもたらしますが、過度の覚醒は社会的関与を減少させます。
これらの発見は、より自然な人間とロボットの相互作用をサポートする表現力豊かで直感的な行動で非ヒューマノイドロボットを与えるための設計洞察を提供します。

要約(オリジナル)

This study explores how human perceptions of a non-anthropomorphic robotic manipulator are shaped by two key dimensions of behaviour: arousal, defined as the robot’s movement energy and expressiveness, and attention, defined as the robot’s capacity to selectively orient toward and engage with a user. We introduce a novel control architecture that integrates a gaze-like attention engine with an arousal-modulated motion system to generate socially meaningful behaviours. In a user study, we find that robots exhibiting high attention — actively directing their focus toward users — are perceived as warmer and more competent, intentional, and lifelike. In contrast, high arousal — characterized by fast, expansive, and energetic motions — increases perceptions of discomfort and disturbance. Importantly, a combination of focused attention and moderate arousal yields the highest ratings of trust and sociability, while excessive arousal diminishes social engagement. These findings offer design insights for endowing non-humanoid robots with expressive, intuitive behaviours that support more natural human-robot interaction.

arxiv情報

著者 Roy El-Helou,Matthew K. X. J Pan
発行日 2025-04-02 00:17:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | The Social Life of Industrial Arms: How Arousal and Attention Shape Human-Robot Interaction はコメントを受け付けていません

ForestVO: Enhancing Visual Odometry in Forest Environments through ForestGlue

要約

視覚臭トメトリシステムの最近の進歩により、自律的なナビゲーションが改善されました。
ただし、密集した葉、可変照明、繰り返しのテクスチャのような森林のような複雑な環境では、課題が続きます。
これらの課題に対処するために、Forestglueを導入し、さまざまなセンシングモダリティ用に最適化された4つの構成(Grayscale、RGB、RGB -D、およびStereo -Vision)を介してスーパーポイント機能検出器を強化します。
フィーチャーマッチングには、合成森林データで再訓練されたLightglueまたはSuperglueを使用します。
ForestGlueは、ベースラインモデルに匹敵するポーズ推定精度を達成しますが、10 {\ deg}のしきい値で0.745のLo -Ransac AUCスコアに達するには、ベースラインの2048のわずか25% – の512キーポイントのみが必要です。
必要なキーポイントの4分の1しかないため、ForestGlueは計算オーバーヘッドを大幅に減らし、動的な森林環境での有効性を実証し、リソース制約のあるプラットフォームでのリアルタイムの展開に適しています。
Forestglueと変圧器ベースのポーズ推定モデルと組み合わせることにより、Forestvoを提案します。ForfortVoは、フレーム間で一致した2Dピクセル座標を使用して相対的なカメラポーズを推定します。
Tartanair Forestシーケンスに挑戦すると、Forestvoは1.09 mの平均相対ポーズ誤差(RPE)と2.33%のKitti_Scoreを達成し、ダイナミックシーンでDSOなどのダイレクトベースの方法を40%上回ります。
トレーニングにデータセットの10%しか使用していませんが、ForestvoはTartanvoで競争力のあるパフォーマンスを維持しながら、大幅に軽いモデルです。
この作業は、森林環境での視覚臭トメトリに特化したエンドツーエンドの深い学習パイプラインを確立し、森林固有のトレーニングデータを活用して、特徴の対応とポーズ推定を最適化し、自律ナビゲーションシステムの精度と堅牢性を高めます。

要約(オリジナル)

Recent advancements in visual odometry systems have improved autonomous navigation; however, challenges persist in complex environments like forests, where dense foliage, variable lighting, and repetitive textures compromise feature correspondence accuracy. To address these challenges, we introduce ForestGlue, enhancing the SuperPoint feature detector through four configurations – grayscale, RGB, RGB-D, and stereo-vision – optimised for various sensing modalities. For feature matching, we employ LightGlue or SuperGlue, retrained with synthetic forest data. ForestGlue achieves comparable pose estimation accuracy to baseline models but requires only 512 keypoints – just 25% of the baseline’s 2048 – to reach an LO-RANSAC AUC score of 0.745 at a 10{\deg} threshold. With only a quarter of keypoints needed, ForestGlue significantly reduces computational overhead, demonstrating effectiveness in dynamic forest environments, and making it suitable for real-time deployment on resource-constrained platforms. By combining ForestGlue with a transformer-based pose estimation model, we propose ForestVO, which estimates relative camera poses using matched 2D pixel coordinates between frames. On challenging TartanAir forest sequences, ForestVO achieves an average relative pose error (RPE) of 1.09 m and a kitti_score of 2.33%, outperforming direct-based methods like DSO by 40% in dynamic scenes. Despite using only 10% of the dataset for training, ForestVO maintains competitive performance with TartanVO while being a significantly lighter model. This work establishes an end-to-end deep learning pipeline specifically tailored for visual odometry in forested environments, leveraging forest-specific training data to optimise feature correspondence and pose estimation, thereby enhancing the accuracy and robustness of autonomous navigation systems.

arxiv情報

著者 Thomas Pritchard,Saifullah Ijaz,Ronald Clark,Basaran Bahadir Kocer
発行日 2025-04-02 00:20:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ForestVO: Enhancing Visual Odometry in Forest Environments through ForestGlue はコメントを受け付けていません

Cuddle-Fish: Exploring a Soft Floating Robot with Flapping Wings for Physical Interactions

要約

四肢ドローンなどの飛行ロボットは、人間とロボットの相互作用の新しい可能性を提供しますが、多くの場合、高速スピニングのプロペラ、剛性構造、ノイズのために安全リスクを引き起こします。
対照的に、動物の動きに触発された、より軽い空気の羽ばたき翼ロボットは、柔らかく、静かで、タッチ安全な代替品を提供します。
これらの利点に基づいて、\ Textit {Cuddle-Fish}を紹介します。これは、屋内スペースで安全で近接性の相互作用のために設計された柔らかく羽ばたき翼のフローティングロボットです。
24人の参加者とのユーザー調査を通じて、ロボットが近くに移動した一連の共同配置デモンストレーション中に、ロボットと経験に対する彼らの認識を調査しました。
結果は、参加者が安全であり、ロボットとのタッチベースの相互作用に喜んで関与し、外部のプロンプトなしで、パッティング、ストローク、ハグ、頬のタッチなどの自発的な感情行動を示したことを示しました。
彼らはまた、ロボットに対する肯定的な感情的反応を報告しました。
これらの発見は、羽ばたき翼を備えた柔らかい浮遊ロボットが、伝統的な硬い飛行ロボットの斬新で社会的に受け入れられる代替として機能し、日常の屋内環境での交際、遊び、インタラクティブな体験のための新しい可能性を開くことができることを示唆しています。

要約(オリジナル)

Flying robots, such as quadrotor drones, offer new possibilities for human-robot interaction but often pose safety risks due to fast-spinning propellers, rigid structures, and noise. In contrast, lighter-than-air flapping-wing robots, inspired by animal movement, offer a soft, quiet, and touch-safe alternative. Building on these advantages, we present \textit{Cuddle-Fish}, a soft, flapping-wing floating robot designed for safe, close-proximity interactions in indoor spaces. Through a user study with 24 participants, we explored their perceptions of the robot and experiences during a series of co-located demonstrations in which the robot moved near them. Results showed that participants felt safe, willingly engaged in touch-based interactions with the robot, and exhibited spontaneous affective behaviours, such as patting, stroking, hugging, and cheek-touching, without external prompting. They also reported positive emotional responses towards the robot. These findings suggest that the soft floating robot with flapping wings can serve as a novel and socially acceptable alternative to traditional rigid flying robots, opening new possibilities for companionship, play, and interactive experiences in everyday indoor environments.

arxiv情報

著者 Mingyang Xu,Jiayi Shao,Yulan Ju,Ximing Shen,Qingyuan Gao,Weijen Chen,Qing Zhang,Yun Suen Pai,Giulia Barbareschi,Matthias Hoppe,Kouta Minamizawa,Kai Kunze
発行日 2025-04-02 01:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Cuddle-Fish: Exploring a Soft Floating Robot with Flapping Wings for Physical Interactions はコメントを受け付けていません