月別アーカイブ: 2025年1月

RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

要約 胸部 X 線写真の自動読影には、正確な疾患分類と詳細な放射線医学レポートの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment はコメントを受け付けていません

Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures

要約 糖尿病性網膜症や緑内障などの眼疾患は、その罹患率の高さと視力障害を引き起こ … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures はコメントを受け付けていません

IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion

要約 顔のビデオ編集は、顔の表情や属性を操作できるため、コンテンツ作成者にとって … 続きを読む

カテゴリー: cs.CV | IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion はコメントを受け付けていません

Confident Pseudo-labeled Diffusion Augmentation for Canine Cardiomegaly Detection

要約 心臓の肥大を特徴とする犬の心肥大は、検出されないと重大な健康リスクを引き起 … 続きを読む

カテゴリー: cs.CV | Confident Pseudo-labeled Diffusion Augmentation for Canine Cardiomegaly Detection はコメントを受け付けていません

Quilt-1M: One Million Image-Text Pairs for Histopathology

要約 最近のマルチモーダル アプリケーションの高速化は、オンラインで入手できる大 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Quilt-1M: One Million Image-Text Pairs for Histopathology はコメントを受け付けていません

Robot Synesthesia: A Sound and Emotion Guided AI Painter

要約 絵が千の言葉を表現するなら、音は百万の言葉を語るかもしれません。 最近のロ … 続きを読む

カテゴリー: cs.CV | Robot Synesthesia: A Sound and Emotion Guided AI Painter はコメントを受け付けていません

The Sound of Water: Inferring Physical Properties from Pouring Liquids

要約 私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | The Sound of Water: Inferring Physical Properties from Pouring Liquids はコメントを受け付けていません

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

要約 思考連鎖 (CoT) プロンプトは、大規模言語モデル (LLM) およびマ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Imagine while Reasoning in Space: Multimodal Visualization-of-Thought はコメントを受け付けていません

SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing

要約 ビデオ編集モデルは大幅に進歩しましたが、そのパフォーマンスを評価することは … 続きを読む

カテゴリー: cs.CL, cs.CV | SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing はコメントを受け付けていません

MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

要約 画像間の対応するピクセル位置を特定することを目的とした画像マッチングは、画 … 続きを読む

カテゴリー: cs.CV | MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training はコメントを受け付けていません