月別アーカイブ: 2024年5月

A Foundation Model for Brain Lesion Segmentation with Mixture of Modality Experts

要約 脳病変のセグメンテーションは、神経学の研究と診断において重要な役割を果たし … 続きを読む

カテゴリー: cs.CV, eess.IV | A Foundation Model for Brain Lesion Segmentation with Mixture of Modality Experts はコメントを受け付けていません

PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology

要約 計算病理学の基礎モデルは、精密医療のための新しい臨床意思決定支援システムと … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | PRISM: A Multi-Modal Generative Foundation Model for Slide-Level Histopathology はコメントを受け付けていません

When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models

要約 大規模言語モデル (LLM) が進化するにつれて、3D 空間データ (3D … 続きを読む

カテゴリー: cs.CV, cs.RO | When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models はコメントを受け付けていません

Biasing & Debiasing based Approach Towards Fair Knowledge Transfer for Equitable Skin Analysis

要約 深層学習モデル、特に畳み込みニューラル ネットワーク (CNN) は、皮膚 … 続きを読む

カテゴリー: cs.CV | Biasing & Debiasing based Approach Towards Fair Knowledge Transfer for Equitable Skin Analysis はコメントを受け付けていません

Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features

要約 この論文では、ディープ ニューラル ネットワーク (DNN) 学習相互作用 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Two-Phase Dynamics of Interactions Explains the Starting Point of a DNN Learning Over-Fitted Features はコメントを受け付けていません

A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision

要約 この研究では、私たちの目標は 2 つあります。大語彙連続手話認識 (CSL … 続きを読む

カテゴリー: cs.CL, cs.CV | A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision はコメントを受け付けていません

Faces that Speak: Jointly Synthesising Talking Face and Speech from Text

要約 この作業の目標は、自然な話し顔とテキストからの音声出力を同時に生成すること … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.SD, eess.AS, eess.IV | Faces that Speak: Jointly Synthesising Talking Face and Speech from Text はコメントを受け付けていません

FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models

要約 ノイズとキャプションの品質は視覚言語対比事前トレーニングに影響を与える重要 … 続きを読む

カテゴリー: cs.AI, cs.CV | FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models はコメントを受け付けていません

Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

要約 特殊な視覚指示に従うデータに基づいて微調整された大規模なビジョン言語モデル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning はコメントを受け付けていません

Grounding DINO 1.5: Advance the ‘Edge’ of Open-Set Object Detection

要約 このペーパーでは、IDEA Research が開発した一連の高度なオープ … 続きを読む

カテゴリー: cs.CV | Grounding DINO 1.5: Advance the ‘Edge’ of Open-Set Object Detection はコメントを受け付けていません