月別アーカイブ: 2025年1月

RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

投稿日: 2025年1月14日作成者: jarxiv

要約胸部 X 線写真の自動読影には、正確な疾患分類と詳細な放射線医学レポートの … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures

投稿日: 2025年1月14日作成者: jarxiv

要約糖尿病性網膜症や緑内障などの眼疾患は、その罹患率の高さと視力障害を引き起こ … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion

投稿日: 2025年1月14日作成者: jarxiv

要約顔のビデオ編集は、顔の表情や属性を操作できるため、コンテンツ作成者にとって … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Confident Pseudo-labeled Diffusion Augmentation for Canine Cardiomegaly Detection

投稿日: 2025年1月14日作成者: jarxiv

要約心臓の肥大を特徴とする犬の心肥大は、検出されないと重大な健康リスクを引き起 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Quilt-1M: One Million Image-Text Pairs for Histopathology

投稿日: 2025年1月14日作成者: jarxiv

要約最近のマルチモーダルアプリケーションの高速化は、オンラインで入手できる大 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Robot Synesthesia: A Sound and Emotion Guided AI Painter

投稿日: 2025年1月14日作成者: jarxiv

要約絵が千の言葉を表現するなら、音は百万の言葉を語るかもしれません。最近のロ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

The Sound of Water: Inferring Physical Properties from Pouring Liquids

投稿日: 2025年1月14日作成者: jarxiv

要約私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

投稿日: 2025年1月14日作成者: jarxiv

要約思考連鎖 (CoT) プロンプトは、大規模言語モデル (LLM) およびマ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing

投稿日: 2025年1月14日作成者: jarxiv

要約ビデオ編集モデルは大幅に進歩しましたが、そのパフォーマンスを評価することは … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

投稿日: 2025年1月14日作成者: jarxiv

要約画像間の対応するピクセル位置を特定することを目的とした画像マッチングは、画 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年1月

RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures

IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion

Confident Pseudo-labeled Diffusion Augmentation for Canine Cardiomegaly Detection

Quilt-1M: One Million Image-Text Pairs for Histopathology

Robot Synesthesia: A Sound and Emotion Guided AI Painter

The Sound of Water: Inferring Physical Properties from Pouring Liquids

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing

MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

最近の投稿

最近のコメント

アーカイブ

カテゴリー