投稿者「jarxiv」のアーカイブ

CMAR-Net: Accurate Cross-Modal 3D SAR Reconstruction of Vehicle Targets with Sparse Multi-Baseline Data

要約 マルチベースライン合成開口レーダー (SAR) 三次元 (3D) 断層撮影 … 続きを読む

カテゴリー: cs.CV, eess.IV | CMAR-Net: Accurate Cross-Modal 3D SAR Reconstruction of Vehicle Targets with Sparse Multi-Baseline Data はコメントを受け付けていません

RGB-D Indiscernible Object Counting in Underwater Scenes

要約 最近、識別できない/カモフラージュされたシーンの理解が、視覚コミュニティで … 続きを読む

カテゴリー: cs.CV | RGB-D Indiscernible Object Counting in Underwater Scenes はコメントを受け付けていません

RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

要約 胸部 X 線写真の自動読影には、正確な疾患分類と詳細な放射線医学レポートの … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment はコメントを受け付けていません

Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures

要約 糖尿病性網膜症や緑内障などの眼疾患は、その罹患率の高さと視力障害を引き起こ … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures はコメントを受け付けていません

IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion

要約 顔のビデオ編集は、顔の表情や属性を操作できるため、コンテンツ作成者にとって … 続きを読む

カテゴリー: cs.CV | IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion はコメントを受け付けていません

Confident Pseudo-labeled Diffusion Augmentation for Canine Cardiomegaly Detection

要約 心臓の肥大を特徴とする犬の心肥大は、検出されないと重大な健康リスクを引き起 … 続きを読む

カテゴリー: cs.CV | Confident Pseudo-labeled Diffusion Augmentation for Canine Cardiomegaly Detection はコメントを受け付けていません

Quilt-1M: One Million Image-Text Pairs for Histopathology

要約 最近のマルチモーダル アプリケーションの高速化は、オンラインで入手できる大 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Quilt-1M: One Million Image-Text Pairs for Histopathology はコメントを受け付けていません

Robot Synesthesia: A Sound and Emotion Guided AI Painter

要約 絵が千の言葉を表現するなら、音は百万の言葉を語るかもしれません。 最近のロ … 続きを読む

カテゴリー: cs.CV | Robot Synesthesia: A Sound and Emotion Guided AI Painter はコメントを受け付けていません

The Sound of Water: Inferring Physical Properties from Pouring Liquids

要約 私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | The Sound of Water: Inferring Physical Properties from Pouring Liquids はコメントを受け付けていません

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

要約 思考連鎖 (CoT) プロンプトは、大規模言語モデル (LLM) およびマ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | Imagine while Reasoning in Space: Multimodal Visualization-of-Thought はコメントを受け付けていません