Go Beyond Earth: Understanding Human Actions and Scenes in Microgravity Environments

要約

ビデオ理解の実質的な進歩にもかかわらず、ほとんどの既存のデータセットは地球の重力条件に限定されています。
ただし、微小重力は人間の動き、相互作用、視覚的なセマンティクスを変化させ、現実世界のビジョンシステムの重要なギャップを明らかにします。
これは、安全性が批判的なスペースアプリケーションにおけるドメインロボストビデオ理解の課題を提示します。
これに対処するために、Microg-4Mを紹介します。これは、微小重力における人間の活動の時空間的および意味的理解のための最初のベンチマークです。
現実世界の宇宙ミッションと映画のシミュレーションから構築されたデータセットには、50のアクション、1,238のコンテキストが豊富なキャプション、宇宙飛行士のアクティビティとシーンの理解に関する7,000を超える質問回答ペアをカバーする4,759のクリップが含まれています。
Microg-4Mは、3つのコアタスクをサポートしています。細粒のマルチラベルアクション認識、時間的なビデオキャプション、視覚的な質問への回答であり、微小重力コンテキストでの空間的ローカリゼーションとセマンティック推論の両方の包括的な評価を可能にします。
最先端のモデルを使用してベースラインを確立します。
すべてのデータ、注釈、およびコードは、https://github.com/lei-qi-233/har-in-spaceで入手できます。

要約(オリジナル)

Despite substantial progress in video understanding, most existing datasets are limited to Earth’s gravitational conditions. However, microgravity alters human motion, interactions, and visual semantics, revealing a critical gap for real-world vision systems. This presents a challenge for domain-robust video understanding in safety-critical space applications. To address this, we introduce MicroG-4M, the first benchmark for spatio-temporal and semantic understanding of human activities in microgravity. Constructed from real-world space missions and cinematic simulations, the dataset includes 4,759 clips covering 50 actions, 1,238 context-rich captions, and over 7,000 question-answer pairs on astronaut activities and scene understanding. MicroG-4M supports three core tasks: fine-grained multi-label action recognition, temporal video captioning, and visual question answering, enabling a comprehensive evaluation of both spatial localization and semantic reasoning in microgravity contexts. We establish baselines using state-of-the-art models. All data, annotations, and code are available at https://github.com/LEI-QI-233/HAR-in-Space.

arxiv情報

著者 Di Wen,Lei Qi,Kunyu Peng,Kailun Yang,Fei Teng,Ao Luo,Jia Fu,Yufan Chen,Ruiping Liu,Yitian Shi,M. Saquib Sarfraz,Rainer Stiefelhagen
発行日 2025-06-04 14:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク