-
最近の投稿
- The Spinning Blimp: Design and Control of a Novel Minimalist Aerial Vehicle Leveraging Rotational Dynamics and Locomotion
- Dur360BEV: A Real-world 360-degree Single Camera Dataset and Benchmark for Bird-Eye View Mapping in Autonomous Driving
- GAGrasp: Geometric Algebra Diffusion for Dexterous Grasping
- DVM-SLAM: Decentralized Visual Monocular Simultaneous Localization and Mapping for Multi-Agent Systems
- Real-time Spatial-temporal Traversability Assessment via Feature-based Sparse Gaussian Process
-
最近のコメント
表示できるコメントはありません。 cs.AI (34738) cs.CL (26263) cs.CR (2664) cs.CV (40572) cs.LG (39741) cs.RO (20348) cs.SY (3091) eess.IV (4818) eess.SY (3085) stat.ML (5229)
「cs.CV」カテゴリーアーカイブ
OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation
要約 Vision-Language Navigation(VLN)は、言語の指 … 続きを読む
ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment
要約 私たちは、人間のユーザーが具体化された環境でエージェントの相互作用を導くた … 続きを読む
A Multi-Sensor Fusion Approach for Rapid Orthoimage Generation in Large-Scale UAV Mapping
要約 無人航空機(UAV)からの大規模なオルソイメージの急速な生成は、航空マッピ … 続きを読む
TS-CGNet: Temporal-Spatial Fusion Meets Centerline-Guided Diffusion for BEV Mapping
要約 バードアイビュー(BEV)知覚テクノロジーは、環境認識、ナビゲーション、意 … 続きを読む
Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance
要約 ロボットシステムの認識能力は、データセットの豊富さに依存しています。 大規 … 続きを読む
StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts
要約 この作業では、レイアウト制御拡散モデルと組み合わせた大規模な言語モデルを使 … 続きを読む
Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs
要約 最近のマルチモーダル大手言語モデル(MLLMS)は、マルチモーダルの問い合 … 続きを読む
Resource-Efficient Affordance Grounding with Complementary Depth and Semantic Prompts
要約 アフォーダンスとは、エージェントが環境から認識し、利用する機能特性を指し、 … 続きを読む
ARC-Flow : Articulated, Resolution-Agnostic, Correspondence-Free Matching and Interpolation of 3D Shapes Under Flow Fields
要約 この作業は、2つの3Dの明確な形状とそれらの間の密な対応の自動推定の間の物 … 続きを読む
Smoothing the Shift: Towards Stable Test-Time Adaptation under Complex Multimodal Noises
要約 テスト時間適応(TTA)は、ソースデータにアクセスせずに、無ー化されたテス … 続きを読む