-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Near-infrared Image Deblurring and Event Denoising with Synergistic Neuromorphic Imaging
要約 夜間のダイナミックおよびその他の非常に暗い条件におけるイメージングの分野は … 続きを読む
カテゴリー: cs.CV
Near-infrared Image Deblurring and Event Denoising with Synergistic Neuromorphic Imaging はコメントを受け付けていません
ArcPro: Architectural Programs for Structured 3D Abstraction of Sparse Points
要約 アーキテクチャプログラムに基づいて構築された新しい学習フレームワークである … 続きを読む
Unified Video Action Model
要約 統一されたビデオとアクションモデルは、動画がアクション予測のための豊富なシ … 続きを読む
OpenFly: A Versatile Toolchain and Large-scale Benchmark for Aerial Vision-Language Navigation
要約 Vision-Language Navigation(VLN)は、言語の指 … 続きを読む
ROCKET-2: Steering Visuomotor Policy via Cross-View Goal Alignment
要約 私たちは、人間のユーザーが具体化された環境でエージェントの相互作用を導くた … 続きを読む
A Multi-Sensor Fusion Approach for Rapid Orthoimage Generation in Large-Scale UAV Mapping
要約 無人航空機(UAV)からの大規模なオルソイメージの急速な生成は、航空マッピ … 続きを読む
TS-CGNet: Temporal-Spatial Fusion Meets Centerline-Guided Diffusion for BEV Mapping
要約 バードアイビュー(BEV)知覚テクノロジーは、環境認識、ナビゲーション、意 … 続きを読む
Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance
要約 ロボットシステムの認識能力は、データセットの豊富さに依存しています。 大規 … 続きを読む
StageDesigner: Artistic Stage Generation for Scenography via Theater Scripts
要約 この作業では、レイアウト制御拡散モデルと組み合わせた大規模な言語モデルを使 … 続きを読む
Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs
要約 最近のマルチモーダル大手言語モデル(MLLMS)は、マルチモーダルの問い合 … 続きを読む