-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding
要約 マルチモーダル大手言語モデル(MLLM)をビデオ理解に適用することは、フレ … 続きを読む
Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation
要約 スロットベースのコンディショニングにアダプターを導入することにより、スロッ … 続きを読む
Dynamic Hypergraph Representation for Bone Metastasis Cancer Analysis
要約 骨転移分析は、病理学における重要な課題であり、患者の生活の質と治療戦略を決 … 続きを読む
カテゴリー: cs.CV
Dynamic Hypergraph Representation for Bone Metastasis Cancer Analysis はコメントを受け付けていません
RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception
要約 協同知覚は、複数のエージェントにわたるデータ共有と融合のための車両(V2X … 続きを読む
Audio-Visual Deepfake Detection With Local Temporal Inconsistencies
要約 このペーパーでは、オーディオと視覚モダリティの間のきめの細かい時間的矛盾を … 続きを読む
Not Every Patch is Needed: Towards a More Efficient and Effective Backbone for Video-based Person Re-identification
要約 このペーパーでは、ビデオベースの人の再識別(Reid)のための新しい効果的 … 続きを読む
カテゴリー: cs.CV
Not Every Patch is Needed: Towards a More Efficient and Effective Backbone for Video-based Person Re-identification はコメントを受け付けていません
Weakly-Supervised Learning via Multi-Lateral Decoder Branching for Tool Segmentation in Robot-Assisted Cardiovascular Catheterization
要約 ロボット支援カテーテルゼットは、心血管疾患の治療における可能性について十分 … 続きを読む
Uni-Sign: Toward Unified Sign Language Understanding at Scale
要約 手話の事前トレーニングは、さまざまな手話理解(SLU)タスク全体でパフォー … 続きを読む
カテゴリー: cs.CV
Uni-Sign: Toward Unified Sign Language Understanding at Scale はコメントを受け付けていません
GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI
要約 アルツハイマー病(AD)は、しばしば軽度の認知障害(MCI)に由来する進行 … 続きを読む
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding
要約 この論文では、画像とビデオの理解のためのより高度なマルチモーダルファンデー … 続きを読む
カテゴリー: cs.CV
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding はコメントを受け付けていません