VizFlyt: Perception-centric Pedagogical Framework For Autonomous Aerial Robots

要約

私たちの生活の中で自律的な航空ロボットが一般的になっています。
実践的な航空ロボットコースは、成長する市場の需要を満たすために、次世代の労働力を訓練する上で極めて重要です。
このような効率的で説得力のあるコースは、信頼できるテストベッドに依存します。
このホワイトペーパーでは、航空ロボットコースのオープンソースの知覚中心のハードウェア(HITL)フォトリアリスティックテストフレームワークであるVizflytを紹介します。
3Dガウスのスプラッティングを使用して、外部のローカリゼーションシステムからのポーズを活用して、リアルタイムおよびフォトリアリックな視覚センサーを幻覚させます。
これにより、障害物に衝突するリスクなしに、航空ロボットでの自律アルゴリズムのストレスのないテストが可能になります。
100Hz以上のシステムアップデートレートを達成します。
最後に、実践的な空中ロボットコースを提供する過去の経験に基づいて、将来のVizflytに基づいた新しいオープンソースとオープンハードウェアカリキュラムを提案します。
実際のHITL実験でさまざまなコースプロジェクトでフレームワークをテストし、そのようなシステムの有効性とその大きな潜在的なユースケースを示す結果を提示します。
コード、データセット、ハードウェアガイド、デモビデオはhttps://pear.wpi.edu/research/vizflyt.htmlで入手できます。

要約(オリジナル)

Autonomous aerial robots are becoming commonplace in our lives. Hands-on aerial robotics courses are pivotal in training the next-generation workforce to meet the growing market demands. Such an efficient and compelling course depends on a reliable testbed. In this paper, we present VizFlyt, an open-source perception-centric Hardware-In-The-Loop (HITL) photorealistic testing framework for aerial robotics courses. We utilize pose from an external localization system to hallucinate real-time and photorealistic visual sensors using 3D Gaussian Splatting. This enables stress-free testing of autonomy algorithms on aerial robots without the risk of crashing into obstacles. We achieve over 100Hz of system update rate. Lastly, we build upon our past experiences of offering hands-on aerial robotics courses and propose a new open-source and open-hardware curriculum based on VizFlyt for the future. We test our framework on various course projects in real-world HITL experiments and present the results showing the efficacy of such a system and its large potential use cases. Code, datasets, hardware guides and demo videos are available at https://pear.wpi.edu/research/vizflyt.html

arxiv情報

著者 Kushagra Srivastava,Rutwik Kulkarni,Manoj Velmurugan,Nitin J. Sanket
発行日 2025-04-01 22:39:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | VizFlyt: Perception-centric Pedagogical Framework For Autonomous Aerial Robots はコメントを受け付けていません

Emotion estimation from video footage with LSTM

要約

一般的な感情の推定は、長い間研究されてきた分野であり、機械学習を使用していくつかのアプローチが存在します。
このホワイトペーパーでは、カメラのライブストリームで検出された顔のためにライブラリメディアピペが生成するブレンド形状を処理するLSTMモデルを提示して、表情から主な感情を推定するために、このモデルはFER2013データセットでトレーニングされ、71%の精度と62%のF1%DATATEMESTを削減するために62%F1%のDATASEを削減する結果を提供します。
費用。
https://github.com/samir-atra/emotion_estimation_from_video_footage_with_lstm_ml_algorithm

要約(オリジナル)

Emotion estimation in general is a field that has been studied for a long time, and several approaches exist using machine learning. in this paper, we present an LSTM model, that processes the blend-shapes produced by the library MediaPipe, for a face detected in a live stream of a camera, to estimate the main emotion from the facial expressions, this model is trained on the FER2013 dataset and delivers a result of 71% accuracy and 62% f1-score which meets the accuracy benchmark of the FER2013 dataset, with significantly reduced computation costs. https://github.com/Samir-atra/Emotion_estimation_from_video_footage_with_LSTM_ML_algorithm

arxiv情報

著者 Samer Attrah
発行日 2025-04-01 23:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T40, cs.CV, cs.LG, cs.RO, I.2.9 | Emotion estimation from video footage with LSTM はコメントを受け付けていません

FUSION: Frequency-guided Underwater Spatial Image recOnstructioN

要約

水中画像は、色の歪み、視界の低下、波長依存性の減衰と散乱による構造の詳細の喪失など、重度の劣化に苦しんでいます。
既存の強化方法は、主に空間ドメイン処理に焦点を当て、グローバルな色分布と長距離依存関係をキャプチャする周波数領域の可能性を無視します。
これらの制限に対処するために、空間および周波数ドメイン情報を共同で活用するデュアルドメインの深い学習フレームワークであるFusionを提案します。
融合は、空間ドメインのマルチスケール畳み込みカーネルと適応的注意メカニズムを介して各RGBチャネルを独立して処理し、同時にFFTベースの周波数注意を介してグローバルな構造情報を抽出します。
周波数ガイド付き融合モジュールは、両方のドメインの補完的な機能を統合し、その後、チャネル間融合と適応チャネルの再調整が続き、バランスの取れた色の分布を確保します。
ベンチマークデータセット(UIEB、EUVP、SUIM-E)に関する広範な実験は、融合が再構成の忠実度(UIEBで0.883の23.717 DBおよびSSIMの最高のPSNR)で一貫して最先端のパフォーマンスを達成し、一貫して既存の方法を上回ることを示しています。
UIEBの3.414のUIQM)、パラメーターが大幅に少ない(0.28m)と計算の複雑さが低いことが必要であり、リアルタイムの水中イメージングアプリケーションへの適合性を示しています。

要約(オリジナル)

Underwater images suffer from severe degradations, including color distortions, reduced visibility, and loss of structural details due to wavelength-dependent attenuation and scattering. Existing enhancement methods primarily focus on spatial-domain processing, neglecting the frequency domain’s potential to capture global color distributions and long-range dependencies. To address these limitations, we propose FUSION, a dual-domain deep learning framework that jointly leverages spatial and frequency domain information. FUSION independently processes each RGB channel through multi-scale convolutional kernels and adaptive attention mechanisms in the spatial domain, while simultaneously extracting global structural information via FFT-based frequency attention. A Frequency Guided Fusion module integrates complementary features from both domains, followed by inter-channel fusion and adaptive channel recalibration to ensure balanced color distributions. Extensive experiments on benchmark datasets (UIEB, EUVP, SUIM-E) demonstrate that FUSION achieves state-of-the-art performance, consistently outperforming existing methods in reconstruction fidelity (highest PSNR of 23.717 dB and SSIM of 0.883 on UIEB), perceptual quality (lowest LPIPS of 0.112 on UIEB), and visual enhancement metrics (best UIQM of 3.414 on UIEB), while requiring significantly fewer parameters (0.28M) and lower computational complexity, demonstrating its suitability for real-time underwater imaging applications.

arxiv情報

著者 Jaskaran Singh Walia,Shravan Venkatraman,Pavithra LK
発行日 2025-04-01 23:16:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | FUSION: Frequency-guided Underwater Spatial Image recOnstructioN はコメントを受け付けていません

Plan-and-Act using Large Language Models for Interactive Agreement

要約

最近の大規模な言語モデル(LLM)は、ロボットアクションを計画することができます。
この論文では、状況的な人間とロボットの相互作用(HRI)を含むタスクでアクションを計画するためにLLMを使用する方法を探ります。
状況的HRIでLLMを適用する重要な問題は、「現在の人間の活動を尊重する」と「ロボットのタスクの優先順位付け」のバランスをとることと、LLMを使用してアクションプランを生成するタイミングを理解することです。
この論文では、上記の問題を解決するために必要な計画とアクションのスキル設計を提案します。
ロボットがパッシブ /アクティブな相互作用動作を切り替えることを可能にするための重要な要因は、現在のロボットのアクションに関するアクションテキストをLLMに提供することであることを示します。
また、適切なタイミングでアクションを計画するためには、LLMへの第2段階の質問(LLMを呼び出す次のタイミングについて)が必要であることを示します。
スキルデザインはエンゲージスキルに適用され、4つの異なるインタラクションシナリオでテストされます。
スキルデザインを使用することにより、LLMSを活用して、テストシナリオで合理的な成功率が90%に達するため、異なるHRIシナリオに簡単にスケーリングできることを示します。

要約(オリジナル)

Recent large language models (LLMs) are capable of planning robot actions. In this paper, we explore how LLMs can be used for planning actions with tasks involving situational human-robot interaction (HRI). A key problem of applying LLMs in situational HRI is balancing between ‘respecting the current human’s activity’ and ‘prioritizing the robot’s task,’ as well as understanding the timing of when to use the LLM to generate an action plan. In this paper, we propose a necessary plan-and-act skill design to solve the above problems. We show that a critical factor for enabling a robot to switch between passive / active interaction behavior is to provide the LLM with an action text about the current robot’s action. We also show that a second-stage question to the LLM (about the next timing to call the LLM) is necessary for planning actions at an appropriate timing. The skill design is applied to an Engage skill and is tested on four distinct interaction scenarios. We show that by using the skill design, LLMs can be leveraged to easily scale to different HRI scenarios with a reasonable success rate reaching 90% on the test scenarios.

arxiv情報

著者 Kazuhiro Sasabuchi,Naoki Wake,Atsushi Kanehira,Jun Takamatsu,Katsushi Ikeuchi
発行日 2025-04-01 23:41:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Plan-and-Act using Large Language Models for Interactive Agreement はコメントを受け付けていません

The Social Life of Industrial Arms: How Arousal and Attention Shape Human-Robot Interaction

要約

この研究では、非人類のロボットマニピュレーターに対する人間の認識が、ロボットの動きのエネルギーと表現力と定義される覚醒の2つの重要な側面によってどのように形成されるかを探ります。
視線のような注意エンジンを覚醒変調モーションシステムと統合して、社会的に意味のある動作を生成する新しいコントロールアーキテクチャを紹介します。
ユーザー調査では、ユーザーに積極的に焦点を向けることを示すロボットは、より暖かく、より有能で、意図的で、リアルなものとして認識されていることがわかります。
対照的に、高覚醒 – 速く、広大で、エネルギッシュな動きを特徴とする – は、不快感と妨害の認識を高めます。
重要なことに、集中的な注意と中程度の覚醒の組み合わせは、信頼と社交性の最高の評価をもたらしますが、過度の覚醒は社会的関与を減少させます。
これらの発見は、より自然な人間とロボットの相互作用をサポートする表現力豊かで直感的な行動で非ヒューマノイドロボットを与えるための設計洞察を提供します。

要約(オリジナル)

This study explores how human perceptions of a non-anthropomorphic robotic manipulator are shaped by two key dimensions of behaviour: arousal, defined as the robot’s movement energy and expressiveness, and attention, defined as the robot’s capacity to selectively orient toward and engage with a user. We introduce a novel control architecture that integrates a gaze-like attention engine with an arousal-modulated motion system to generate socially meaningful behaviours. In a user study, we find that robots exhibiting high attention — actively directing their focus toward users — are perceived as warmer and more competent, intentional, and lifelike. In contrast, high arousal — characterized by fast, expansive, and energetic motions — increases perceptions of discomfort and disturbance. Importantly, a combination of focused attention and moderate arousal yields the highest ratings of trust and sociability, while excessive arousal diminishes social engagement. These findings offer design insights for endowing non-humanoid robots with expressive, intuitive behaviours that support more natural human-robot interaction.

arxiv情報

著者 Roy El-Helou,Matthew K. X. J Pan
発行日 2025-04-02 00:17:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | The Social Life of Industrial Arms: How Arousal and Attention Shape Human-Robot Interaction はコメントを受け付けていません

ForestVO: Enhancing Visual Odometry in Forest Environments through ForestGlue

要約

視覚臭トメトリシステムの最近の進歩により、自律的なナビゲーションが改善されました。
ただし、密集した葉、可変照明、繰り返しのテクスチャのような森林のような複雑な環境では、課題が続きます。
これらの課題に対処するために、Forestglueを導入し、さまざまなセンシングモダリティ用に最適化された4つの構成(Grayscale、RGB、RGB -D、およびStereo -Vision)を介してスーパーポイント機能検出器を強化します。
フィーチャーマッチングには、合成森林データで再訓練されたLightglueまたはSuperglueを使用します。
ForestGlueは、ベースラインモデルに匹敵するポーズ推定精度を達成しますが、10 {\ deg}のしきい値で0.745のLo -Ransac AUCスコアに達するには、ベースラインの2048のわずか25% – の512キーポイントのみが必要です。
必要なキーポイントの4分の1しかないため、ForestGlueは計算オーバーヘッドを大幅に減らし、動的な森林環境での有効性を実証し、リソース制約のあるプラットフォームでのリアルタイムの展開に適しています。
Forestglueと変圧器ベースのポーズ推定モデルと組み合わせることにより、Forestvoを提案します。ForfortVoは、フレーム間で一致した2Dピクセル座標を使用して相対的なカメラポーズを推定します。
Tartanair Forestシーケンスに挑戦すると、Forestvoは1.09 mの平均相対ポーズ誤差(RPE)と2.33%のKitti_Scoreを達成し、ダイナミックシーンでDSOなどのダイレクトベースの方法を40%上回ります。
トレーニングにデータセットの10%しか使用していませんが、ForestvoはTartanvoで競争力のあるパフォーマンスを維持しながら、大幅に軽いモデルです。
この作業は、森林環境での視覚臭トメトリに特化したエンドツーエンドの深い学習パイプラインを確立し、森林固有のトレーニングデータを活用して、特徴の対応とポーズ推定を最適化し、自律ナビゲーションシステムの精度と堅牢性を高めます。

要約(オリジナル)

Recent advancements in visual odometry systems have improved autonomous navigation; however, challenges persist in complex environments like forests, where dense foliage, variable lighting, and repetitive textures compromise feature correspondence accuracy. To address these challenges, we introduce ForestGlue, enhancing the SuperPoint feature detector through four configurations – grayscale, RGB, RGB-D, and stereo-vision – optimised for various sensing modalities. For feature matching, we employ LightGlue or SuperGlue, retrained with synthetic forest data. ForestGlue achieves comparable pose estimation accuracy to baseline models but requires only 512 keypoints – just 25% of the baseline’s 2048 – to reach an LO-RANSAC AUC score of 0.745 at a 10{\deg} threshold. With only a quarter of keypoints needed, ForestGlue significantly reduces computational overhead, demonstrating effectiveness in dynamic forest environments, and making it suitable for real-time deployment on resource-constrained platforms. By combining ForestGlue with a transformer-based pose estimation model, we propose ForestVO, which estimates relative camera poses using matched 2D pixel coordinates between frames. On challenging TartanAir forest sequences, ForestVO achieves an average relative pose error (RPE) of 1.09 m and a kitti_score of 2.33%, outperforming direct-based methods like DSO by 40% in dynamic scenes. Despite using only 10% of the dataset for training, ForestVO maintains competitive performance with TartanVO while being a significantly lighter model. This work establishes an end-to-end deep learning pipeline specifically tailored for visual odometry in forested environments, leveraging forest-specific training data to optimise feature correspondence and pose estimation, thereby enhancing the accuracy and robustness of autonomous navigation systems.

arxiv情報

著者 Thomas Pritchard,Saifullah Ijaz,Ronald Clark,Basaran Bahadir Kocer
発行日 2025-04-02 00:20:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ForestVO: Enhancing Visual Odometry in Forest Environments through ForestGlue はコメントを受け付けていません

Cuddle-Fish: Exploring a Soft Floating Robot with Flapping Wings for Physical Interactions

要約

四肢ドローンなどの飛行ロボットは、人間とロボットの相互作用の新しい可能性を提供しますが、多くの場合、高速スピニングのプロペラ、剛性構造、ノイズのために安全リスクを引き起こします。
対照的に、動物の動きに触発された、より軽い空気の羽ばたき翼ロボットは、柔らかく、静かで、タッチ安全な代替品を提供します。
これらの利点に基づいて、\ Textit {Cuddle-Fish}を紹介します。これは、屋内スペースで安全で近接性の相互作用のために設計された柔らかく羽ばたき翼のフローティングロボットです。
24人の参加者とのユーザー調査を通じて、ロボットが近くに移動した一連の共同配置デモンストレーション中に、ロボットと経験に対する彼らの認識を調査しました。
結果は、参加者が安全であり、ロボットとのタッチベースの相互作用に喜んで関与し、外部のプロンプトなしで、パッティング、ストローク、ハグ、頬のタッチなどの自発的な感情行動を示したことを示しました。
彼らはまた、ロボットに対する肯定的な感情的反応を報告しました。
これらの発見は、羽ばたき翼を備えた柔らかい浮遊ロボットが、伝統的な硬い飛行ロボットの斬新で社会的に受け入れられる代替として機能し、日常の屋内環境での交際、遊び、インタラクティブな体験のための新しい可能性を開くことができることを示唆しています。

要約(オリジナル)

Flying robots, such as quadrotor drones, offer new possibilities for human-robot interaction but often pose safety risks due to fast-spinning propellers, rigid structures, and noise. In contrast, lighter-than-air flapping-wing robots, inspired by animal movement, offer a soft, quiet, and touch-safe alternative. Building on these advantages, we present \textit{Cuddle-Fish}, a soft, flapping-wing floating robot designed for safe, close-proximity interactions in indoor spaces. Through a user study with 24 participants, we explored their perceptions of the robot and experiences during a series of co-located demonstrations in which the robot moved near them. Results showed that participants felt safe, willingly engaged in touch-based interactions with the robot, and exhibited spontaneous affective behaviours, such as patting, stroking, hugging, and cheek-touching, without external prompting. They also reported positive emotional responses towards the robot. These findings suggest that the soft floating robot with flapping wings can serve as a novel and socially acceptable alternative to traditional rigid flying robots, opening new possibilities for companionship, play, and interactive experiences in everyday indoor environments.

arxiv情報

著者 Mingyang Xu,Jiayi Shao,Yulan Ju,Ximing Shen,Qingyuan Gao,Weijen Chen,Qing Zhang,Yun Suen Pai,Giulia Barbareschi,Matthias Hoppe,Kouta Minamizawa,Kai Kunze
発行日 2025-04-02 01:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.RO | Cuddle-Fish: Exploring a Soft Floating Robot with Flapping Wings for Physical Interactions はコメントを受け付けていません

AIM: Acoustic Inertial Measurement for Indoor Drone Localization and Tracking

要約

屋内ドローンのローカリゼーションと追跡のためのユニークな技術である音響慣性測定(AIM)を提示します。
屋内ドローンのローカリゼーションと追跡は間違いなく重要でありながら未解決の課題です。GPSが除去された環境では、既存のアプローチでは、特に視界(NLOS)では、限られた適用性を享受したり、広範な環境計装を必要としたり、ドローンにかなりのハードウェア/ソフトウェアの変更を要求したりします。
対照的に、AIMはドローンの音響特性を活用して、NLOSの設定であっても、その位置を推定し、動きを導き出します。
専用のKalmanフィルターと四分位範囲ルール(IQR)を使用して、ロケーションの推定エラーを把握しました。
既製のマイクアレイを使用して目的を実装し、さまざまな設定の下で商用ドローンでそのパフォーマンスを評価します。
結果は、AIMの平均局在誤差が、NLOS設定のために最先端の赤外線システムさえ機能しない複雑な屋内シナリオの商用UWBベースのシステムよりも46%低いことを示しています。
さらに、分散マイクアレイを展開することにより、精度を失うことなく、任意の範囲とレイアウトを備えた屋内スペースをサポートするために目的を拡張できることを実証します。

要約(オリジナル)

We present Acoustic Inertial Measurement (AIM), a one-of-a-kind technique for indoor drone localization and tracking. Indoor drone localization and tracking are arguably a crucial, yet unsolved challenge: in GPS-denied environments, existing approaches enjoy limited applicability, especially in Non-Line of Sight (NLoS), require extensive environment instrumentation, or demand considerable hardware/software changes on drones. In contrast, AIM exploits the acoustic characteristics of the drones to estimate their location and derive their motion, even in NLoS settings. We tame location estimation errors using a dedicated Kalman filter and the Interquartile Range rule (IQR). We implement AIM using an off-the-shelf microphone array and evaluate its performance with a commercial drone under varied settings. Results indicate that the mean localization error of AIM is 46% lower than commercial UWB-based systems in complex indoor scenarios, where state-of-the-art infrared systems would not even work because of NLoS settings. We further demonstrate that AIM can be extended to support indoor spaces with arbitrary ranges and layouts without loss of accuracy by deploying distributed microphone arrays.

arxiv情報

著者 Yimiao Sun,Weiguo Wang,Luca Mottola,Ruijin Wang,Yuan He
発行日 2025-04-02 02:01:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SD, eess.AS | AIM: Acoustic Inertial Measurement for Indoor Drone Localization and Tracking はコメントを受け付けていません

Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers

要約

ロボット操作における正確な力変調を実現するために、自然言語処理と両側制御を統一する新しい模倣学習フレームワークであるBi-Latを提示します。
Bi-latは、リーダーフォロワーの視覚操作からのジョイントの位置、速度、およびトルクデータを活用し、視覚的および言語的キューを統合して、適用力を動的に調整します。
マルチモーダル変圧器ベースのモデルを介して「カップを柔らかく把握したり、「スポンジを強くねじっている」などの人間の指示をエンコードすることにより、BI-LATは、現実世界のタスクにおける微妙な力要件を区別することを学びます。
ロボットが言語コマンドに基づいて把握力を正確に調整する(2)調整された力制御を必要とする両段階のスポンジツイストタスクを正確に調整する(1)bi-latのパフォーマンスを実証します。
実験結果は、特にテストされた言語エンコーダーにSiglipを組み込む場合、BI-LATが指示された力レベルを効果的に再現することを示しています。
私たちの調査結果は、自然言語の手がかりを模倣学習に統合する可能性を示しており、より直感的で適応性のある人間とロボットの相互作用への道を開いています。
追加資料については、https://mertcookimg.github.io/bi-lat/をご覧ください。

要約(オリジナル)

We present Bi-LAT, a novel imitation learning framework that unifies bilateral control with natural language processing to achieve precise force modulation in robotic manipulation. Bi-LAT leverages joint position, velocity, and torque data from leader-follower teleoperation while also integrating visual and linguistic cues to dynamically adjust applied force. By encoding human instructions such as ‘softly grasp the cup’ or ‘strongly twist the sponge’ through a multimodal Transformer-based model, Bi-LAT learns to distinguish nuanced force requirements in real-world tasks. We demonstrate Bi-LAT’s performance in (1) unimanual cup-stacking scenario where the robot accurately modulates grasp force based on language commands, and (2) bimanual sponge-twisting task that requires coordinated force control. Experimental results show that Bi-LAT effectively reproduces the instructed force levels, particularly when incorporating SigLIP among tested language encoders. Our findings demonstrate the potential of integrating natural language cues into imitation learning, paving the way for more intuitive and adaptive human-robot interaction. For additional material, please visit: https://mertcookimg.github.io/bi-lat/

arxiv情報

著者 Takumi Kobayashi,Masato Kobayashi,Thanpimon Buamanee,Yuki Uranishi
発行日 2025-04-02 02:21:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Bi-LAT: Bilateral Control-Based Imitation Learning via Natural Language and Action Chunking with Transformers はコメントを受け付けていません

TeraSim: Uncovering Unknown Unsafe Events for Autonomous Vehicles through Generative Simulation

要約

交通シミュレーションは、自動運転車(AV)開発に不可欠であり、多様な運転条件全体で包括的な安全評価を可能にします。
ただし、従来のルールベースのシミュレーターは、複雑な人間の相互作用をキャプチャするのに苦労していますが、データ駆動型のアプローチは、長期的な行動リアリズムを維持したり、多様な安全性クリティカルなイベントを生成したりすることができないことがよくあります。
これらの課題に対処するために、未知の安全でないイベントを明らかにし、クラッシュレートなどのAV統計パフォーマンスメトリックを効率的に推定するように設計されたオープンソースの高忠実度トラフィックシミュレーションプラットフォームであるTerasimを提案します。
Terasimは、完全なAVシミュレーションシステムを構築するために、サードパーティの物理シミュレータおよびスタンドアロンAVスタックとのシームレスな統合のために設計されています。
実験結果は、静的エージェントと動的エージェントの両方を含む多様な安全性批判的なイベントを生成し、AVシステムの隠された欠陥を特定し、統計的パフォーマンス評価を可能にする際の有効性を示しています。
これらの調査結果は、AVの安全性評価のための実用的なツールとしてのテラシムの可能性を強調し、研究者、開発者、政策立案者に利益をもたらします。
コードはhttps://github.com/mcity/terasimで入手できます。

要約(オリジナル)

Traffic simulation is essential for autonomous vehicle (AV) development, enabling comprehensive safety evaluation across diverse driving conditions. However, traditional rule-based simulators struggle to capture complex human interactions, while data-driven approaches often fail to maintain long-term behavioral realism or generate diverse safety-critical events. To address these challenges, we propose TeraSim, an open-source, high-fidelity traffic simulation platform designed to uncover unknown unsafe events and efficiently estimate AV statistical performance metrics, such as crash rates. TeraSim is designed for seamless integration with third-party physics simulators and standalone AV stacks, to construct a complete AV simulation system. Experimental results demonstrate its effectiveness in generating diverse safety-critical events involving both static and dynamic agents, identifying hidden deficiencies in AV systems, and enabling statistical performance evaluation. These findings highlight TeraSim’s potential as a practical tool for AV safety assessment, benefiting researchers, developers, and policymakers. The code is available at https://github.com/mcity/TeraSim.

arxiv情報

著者 Haowei Sun,Xintao Yan,Zhijie Qiao,Haojie Zhu,Yihao Sun,Jiawei Wang,Shengyin Shen,Darian Hogue,Rajanikant Ananta,Derek Johnson,Greg Stevens,Greg McGuire,Yifan Wei,Wei Zheng,Yong Sun,Yasuo Fukai,Henry X. Liu
発行日 2025-04-02 02:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | TeraSim: Uncovering Unknown Unsafe Events for Autonomous Vehicles through Generative Simulation はコメントを受け付けていません