「I.2.10」カテゴリーアーカイブ

CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D Object Detection

投稿日: 2024年3月7日作成者: jarxiv

要約最近の LiDAR ベースの 3D 物体検出 (3DOD) 手法は有望な結 … 続きを読む →

カテゴリー: cs.CV, I.2.10 | コメントを受け付けていません

Learning 3D object-centric representation through prediction

投稿日: 2024年3月7日作成者: jarxiv

要約人間の核となる知識の一部として、オブジェクトの表現は、高レベルの概念と象徴 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.10 | コメントを受け付けていません

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

投稿日: 2024年3月4日作成者: jarxiv

要約テレビクリップのような複雑なマルチモーダルコンテンツに対して質問応答を行う … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | コメントを受け付けていません

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

投稿日: 2024年3月1日作成者: jarxiv

要約テレビクリップなどの複雑でマルチモーダルなコンテンツに対して質問応答を実 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | コメントを受け付けていません

RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation

投稿日: 2024年2月23日作成者: jarxiv

要約オープンワールドのロボット操作のための高レベルのタスク計画とコード生成の急 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO, I.2.10 | コメントを受け付けていません

Beyond still images: Temporal features and input variance resilience

投稿日: 2024年2月15日作成者: jarxiv

要約従来、視覚モデルは主に静止画像から抽出された空間特徴に依存しており、自然視 … 続きを読む →

カテゴリー: cs.AI, cs.CV, I.2.10 | コメントを受け付けていません

UAV-assisted Visual SLAM Generating Reconstructed 3D Scene Graphs in GPS-denied Environments

投稿日: 2024年2月13日作成者: jarxiv

要約航空ロボットは、環境に関するロボットの状況認識が基本的な要求となるさまざま … 続きを読む →

カテゴリー: cs.RO, I.2.10 | コメントを受け付けていません

Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos

投稿日: 2024年2月7日作成者: jarxiv

要約ビデオアクションセグメンテーションは、多くの分野で広く適用されています … 続きを読む →

カテゴリー: 68T01, 68T30, 68T45, cs.CV, cs.MM, I.2.10 | コメントを受け付けていません

CC-SGG: Corner Case Scenario Generation using Learned Scene Graphs

投稿日: 2024年2月7日作成者: jarxiv

要約コーナーケースのシナリオは、自動運転車 (AV) の安全性をテストおよび検 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, I.2.10 | コメントを受け付けていません

Motion Perceiver: Real-Time Occupancy Forecasting for Embedded Systems

投稿日: 2024年2月5日作成者: jarxiv

要約本研究では、ソフトIOUのWaymo Open Motion Datase … 続きを読む →

カテゴリー: cs.RO, I.2.10 | コメントを受け付けていません

「I.2.10」カテゴリーアーカイブ

CMDA: Cross-Modal and Domain Adversarial Adaptation for LiDAR-Based 3D Object Detection

Learning 3D object-centric representation through prediction

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation

Beyond still images: Temporal features and input variance resilience

UAV-assisted Visual SLAM Generating Reconstructed 3D Scene Graphs in GPS-denied Environments

Semantic2Graph: Graph-based Multi-modal Feature Fusion for Action Segmentation in Videos

CC-SGG: Corner Case Scenario Generation using Learned Scene Graphs

Motion Perceiver: Real-Time Occupancy Forecasting for Embedded Systems

最近の投稿

最近のコメント

アーカイブ

カテゴリー