要約
マルチモーダル学習は、自律運転、ロボット工学、知覚システムなどのドメイン全体で機械学習アプリケーションのパフォーマンスを改善するための重要な技術となっています。
ただし、特定のシナリオ、特にリソース制約の環境では、トレーニング中に利用可能ないくつかのモダリティが推論中に存在しない場合があります。
既存のフレームワークは、トレーニング中に複数のデータソースを効果的に利用し、モダリティを減らして推論を有効にしますが、主に単一エージェント設定用に設計されています。
これは、接続された自動運転車(CAV)などの動的環境で重要な制限をもたらします。ここでは、不完全なデータカバレッジが意思決定の盲点につながる可能性があります。
逆に、一部の作品は、マルチエージェントのコラボレーションを探求しますが、テスト時にはモダリティの欠落に対処することはありません。
これらの制限を克服するために、エージェントがトレーニング中にマルチモーダルデータを協力して共有できるようにしながら、テスト中のモダリティを減らすことができる新しいマルチモーダルマルチエージェントフレームワークである共同補助モダリティ学習(CAML)を提案します。
事故が発生しやすいシナリオでのCAVの共同意思決定における実験結果は、CAMLが事故検出の$ {\ bf 58.1} \%$の改善を達成することを示しています。
さらに、共同セマンティックセグメンテーションのために現実世界の空中ロボットデータのCAMLを検証し、MIOUで最大{\ bf 10.6} \%$の改善を達成します。
要約(オリジナル)
Multi-modal learning has become a crucial technique for improving the performance of machine learning applications across domains such as autonomous driving, robotics, and perception systems. However, in certain scenarios, particularly in resource-constrained environments, some modalities available during training may be absent during inference. While existing frameworks effectively utilize multiple data sources during training and enable inference with reduced modalities, they are primarily designed for single-agent settings. This poses a critical limitation in dynamic environments such as connected autonomous vehicles (CAV), where incomplete data coverage can lead to decision-making blind spots. Conversely, some works explore multi-agent collaboration but without addressing missing modality at test time. To overcome these limitations, we propose Collaborative Auxiliary Modality Learning (CAML), a novel multi-modal multi-agent framework that enables agents to collaborate and share multi-modal data during training, while allowing inference with reduced modalities during testing. Experimental results in collaborative decision-making for CAV in accident-prone scenarios demonstrate that CAML achieves up to a ${\bf 58.1}\%$ improvement in accident detection. Additionally, we validate CAML on real-world aerial-ground robot data for collaborative semantic segmentation, achieving up to a ${\bf 10.6}\%$ improvement in mIoU.
arxiv情報
著者 | Rui Liu,Yu Shen,Peng Gao,Pratap Tokekar,Ming Lin |
発行日 | 2025-05-29 23:50:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google