cs.CV」カテゴリーアーカイブ

Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding

要約 マルチモーダル大手言語モデル(MLLM)をビデオ理解に適用することは、フレ … 続きを読む

カテゴリー: cs.CL, cs.CV | Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding はコメントを受け付けていません

Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation

要約 スロットベースのコンディショニングにアダプターを導入することにより、スロッ … 続きを読む

カテゴリー: cs.CV, cs.LG | Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation はコメントを受け付けていません

Dynamic Hypergraph Representation for Bone Metastasis Cancer Analysis

要約 骨転移分析は、病理学における重要な課題であり、患者の生活の質と治療戦略を決 … 続きを読む

カテゴリー: cs.CV | Dynamic Hypergraph Representation for Bone Metastasis Cancer Analysis はコメントを受け付けていません

RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception

要約 協同知覚は、複数のエージェントにわたるデータ共有と融合のための車両(V2X … 続きを読む

カテゴリー: cs.CV, cs.NI, cs.RO, eess.IV | RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception はコメントを受け付けていません

Audio-Visual Deepfake Detection With Local Temporal Inconsistencies

要約 このペーパーでは、オーディオと視覚モダリティの間のきめの細かい時間的矛盾を … 続きを読む

カテゴリー: cs.CR, cs.CV, cs.MM, cs.SD, eess.AS | Audio-Visual Deepfake Detection With Local Temporal Inconsistencies はコメントを受け付けていません

Not Every Patch is Needed: Towards a More Efficient and Effective Backbone for Video-based Person Re-identification

要約 このペーパーでは、ビデオベースの人の再識別(Reid)のための新しい効果的 … 続きを読む

カテゴリー: cs.CV | Not Every Patch is Needed: Towards a More Efficient and Effective Backbone for Video-based Person Re-identification はコメントを受け付けていません

Weakly-Supervised Learning via Multi-Lateral Decoder Branching for Tool Segmentation in Robot-Assisted Cardiovascular Catheterization

要約 ロボット支援カテーテルゼットは、心血管疾患の治療における可能性について十分 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Weakly-Supervised Learning via Multi-Lateral Decoder Branching for Tool Segmentation in Robot-Assisted Cardiovascular Catheterization はコメントを受け付けていません

Uni-Sign: Toward Unified Sign Language Understanding at Scale

要約 手話の事前トレーニングは、さまざまな手話理解(SLU)タスク全体でパフォー … 続きを読む

カテゴリー: cs.CV | Uni-Sign: Toward Unified Sign Language Understanding at Scale はコメントを受け付けていません

GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI

要約 アルツハイマー病(AD)は、しばしば軽度の認知障害(MCI)に由来する進行 … 続きを読む

カテゴリー: cs.AI, cs.CV | GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI はコメントを受け付けていません

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

要約 この論文では、画像とビデオの理解のためのより高度なマルチモーダルファンデー … 続きを読む

カテゴリー: cs.CV | VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding はコメントを受け付けていません