-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.MM」カテゴリーアーカイブ
Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers
要約 深度センサーの利用可能性が高まるにつれ、色情報と深度データを組み合わせるマ … 続きを読む
OneLLM: One Framework to Align All Modalities with Language
要約 マルチモーダル大規模言語モデル (MLLM) は、その強力なマルチモーダル … 続きを読む
VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing
要約 ビデオ ダビングは、映画やテレビ番組の元の音声をターゲット言語の音声に翻訳 … 続きを読む
Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation
要約 Radiology Report Generation (RRG) は、視 … 続きを読む
RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model
要約 広範な画像とテキストのペアデータを利用した事前トレーニング済み視覚言語モデ … 続きを読む
Investigation of UAV Detection in Images with Complex Backgrounds and Rainy Artifacts
要約 無人航空機 (UAV) をリアルタイムで検出するために、コンピューター ビ … 続きを読む
Rethinking Event-based Human Pose Estimation with 3D Event Representations
要約 人間の姿勢推定は、コンピュータビジョンにおける基本的かつ魅力的なタスクであ … 続きを読む
RTQ: Rethinking Video-language Understanding Based on Image-text Model
要約 ビデオ言語理解における最近の進歩は、画像-テキストモデルの基礎の上に確立さ … 続きを読む
mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model
要約 最近、ラージ言語モデル (LLM) の強力なテキスト作成能力により、論文の … 続きを読む