「cs.CV」カテゴリーアーカイブ

Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding

投稿日: 2025年1月29日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLM）をビデオ理解に適用することは、フレ … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation

投稿日: 2025年1月29日作成者: jarxiv

要約スロットベースのコンディショニングにアダプターを導入することにより、スロッ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Dynamic Hypergraph Representation for Bone Metastasis Cancer Analysis

投稿日: 2025年1月29日作成者: jarxiv

要約骨転移分析は、病理学における重要な課題であり、患者の生活の質と治療戦略を決 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception

投稿日: 2025年1月29日作成者: jarxiv

要約協同知覚は、複数のエージェントにわたるデータ共有と融合のための車両（V2X … 続きを読む →

カテゴリー: cs.CV, cs.NI, cs.RO, eess.IV | コメントを受け付けていません

Audio-Visual Deepfake Detection With Local Temporal Inconsistencies

投稿日: 2025年1月29日作成者: jarxiv

要約このペーパーでは、オーディオと視覚モダリティの間のきめの細かい時間的矛盾を … 続きを読む →

カテゴリー: cs.CR, cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Not Every Patch is Needed: Towards a More Efficient and Effective Backbone for Video-based Person Re-identification

投稿日: 2025年1月29日作成者: jarxiv

要約このペーパーでは、ビデオベースの人の再識別（Reid）のための新しい効果的 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Weakly-Supervised Learning via Multi-Lateral Decoder Branching for Tool Segmentation in Robot-Assisted Cardiovascular Catheterization

投稿日: 2025年1月29日作成者: jarxiv

要約ロボット支援カテーテルゼットは、心血管疾患の治療における可能性について十分 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

Uni-Sign: Toward Unified Sign Language Understanding at Scale

投稿日: 2025年1月29日作成者: jarxiv

要約手話の事前トレーニングは、さまざまな手話理解（SLU）タスク全体でパフォー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI

投稿日: 2025年1月29日作成者: jarxiv

要約アルツハイマー病（AD）は、しばしば軽度の認知障害（MCI）に由来する進行 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

投稿日: 2025年1月29日作成者: jarxiv

要約この論文では、画像とビデオの理解のためのより高度なマルチモーダルファンデー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding

Slot-Guided Adaptation of Pre-trained Diffusion Models for Object-Centric Learning and Compositional Generation

Dynamic Hypergraph Representation for Bone Metastasis Cancer Analysis

RG-Attn: Radian Glue Attention for Multi-modality Multi-agent Cooperative Perception

Audio-Visual Deepfake Detection With Local Temporal Inconsistencies

Not Every Patch is Needed: Towards a More Efficient and Effective Backbone for Video-based Person Re-identification

Weakly-Supervised Learning via Multi-Lateral Decoder Branching for Tool Segmentation in Robot-Assisted Cardiovascular Catheterization

Uni-Sign: Toward Unified Sign Language Understanding at Scale

GFE-Mamba: Mamba-based AD Multi-modal Progression Assessment via Generative Feature Extraction from MCI

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

最近の投稿

最近のコメント

アーカイブ

カテゴリー