-
最近の投稿
- Human-Robot Dialogue Annotation for Multi-Modal Common Ground
- Anticipatory Planning for Performant Long-Lived Robot in Large-Scale Home-Like Environments
- SCOUT: A Situated and Multi-Modal Human-Robot Dialogue Corpus
- Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting
- ForestAlign: Automatic Forest Structure-based Alignment for Multi-view TLS and ALS Point Clouds
-
最近のコメント
表示できるコメントはありません。 cs.AI (29925) cs.CL (22599) cs.CR (2321) cs.CV (36300) cs.LG (34746) cs.RO (17366) cs.SY (2670) eess.IV (4416) eess.SY (2664) stat.ML (4635)
「cs.CV」カテゴリーアーカイブ
Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training
要約 このペーパーでは、ビジュアル エンコーディングと言語デコーディングを単一の … 続きを読む
DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes
要約 ノベルビュー合成 (NVS) アプローチは、広大なシーンの再構築において重 … 続きを読む
Paying more attention to local contrast: improving infrared small target detection performance via prior knowledge
要約 赤外線小型目標検出 (IRSTD) のデータ駆動型手法は、有望な結果を達成 … 続きを読む
PDE-CNNs: Axiomatic Derivations and Applications
要約 PDE ベースのグループ畳み込みニューラル ネットワーク (PDE-G-C … 続きを読む
HHAvatar: Gaussian Head Avatar with Dynamic Hairs
要約 高忠実度の 3D ヘッド アバターの作成は常に研究のホットスポットですが、 … 続きを読む
Analysis and Synthesis Denoisers for Forward-Backward Plug-and-Play Algorithms
要約 この研究では、プラグ アンド プレイ (PnP) 方式で、近接演算子を部分 … 続きを読む
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation
要約 高度なビデオ分析機能を備えた大規模マルチモーダル モデル (LMM) が、 … 続きを読む
3D-Aware Instance Segmentation and Tracking in Egocentric Videos
要約 自己中心的なビデオでは、急速なカメラの動き、頻繁なオブジェクトの遮蔽、およ … 続きを読む
DATTA: Domain-Adversarial Test-Time Adaptation for Cross-Domain WiFi-Based Human Activity Recognition
要約 クロスドメイン一般化は、環境、デバイス、対象の変化に起因する WiFi ベ … 続きを読む
DAOcc: 3D Object Detection Assisted Multi-Sensor Fusion for 3D Occupancy Prediction
要約 マルチセンサー フュージョンにより、自動運転やロボット工学にとって重要な … 続きを読む