投稿者「jarxiv」のアーカイブ

CMAR-Net: Accurate Cross-Modal 3D SAR Reconstruction of Vehicle Targets with Sparse Multi-Baseline Data

投稿日: 2025年1月14日作成者: jarxiv

要約マルチベースライン合成開口レーダー (SAR) 三次元 (3D) 断層撮影 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

RGB-D Indiscernible Object Counting in Underwater Scenes

投稿日: 2025年1月14日作成者: jarxiv

要約最近、識別できない/カモフラージュされたシーンの理解が、視覚コミュニティで … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

投稿日: 2025年1月14日作成者: jarxiv

要約胸部 X 線写真の自動読影には、正確な疾患分類と詳細な放射線医学レポートの … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures

投稿日: 2025年1月14日作成者: jarxiv

要約糖尿病性網膜症や緑内障などの眼疾患は、その罹患率の高さと視力障害を引き起こ … 続きを読む →

カテゴリー: cs.CV, cs.LG, eess.IV | コメントを受け付けていません

IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion

投稿日: 2025年1月14日作成者: jarxiv

要約顔のビデオ編集は、顔の表情や属性を操作できるため、コンテンツ作成者にとって … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Confident Pseudo-labeled Diffusion Augmentation for Canine Cardiomegaly Detection

投稿日: 2025年1月14日作成者: jarxiv

要約心臓の肥大を特徴とする犬の心肥大は、検出されないと重大な健康リスクを引き起 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Quilt-1M: One Million Image-Text Pairs for Histopathology

投稿日: 2025年1月14日作成者: jarxiv

要約最近のマルチモーダルアプリケーションの高速化は、オンラインで入手できる大 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Robot Synesthesia: A Sound and Emotion Guided AI Painter

投稿日: 2025年1月14日作成者: jarxiv

要約絵が千の言葉を表現するなら、音は百万の言葉を語るかもしれません。最近のロ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

The Sound of Water: Inferring Physical Properties from Pouring Liquids

投稿日: 2025年1月14日作成者: jarxiv

要約私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

投稿日: 2025年1月14日作成者: jarxiv

要約思考連鎖 (CoT) プロンプトは、大規模言語モデル (LLM) およびマ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

CMAR-Net: Accurate Cross-Modal 3D SAR Reconstruction of Vehicle Targets with Sparse Multi-Baseline Data

RGB-D Indiscernible Object Counting in Underwater Scenes

RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment

Enhance Eye Disease Detection using Learnable Probabilistic Discrete Latents in Machine Learning Architectures

IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion

Confident Pseudo-labeled Diffusion Augmentation for Canine Cardiomegaly Detection

Quilt-1M: One Million Image-Text Pairs for Histopathology

Robot Synesthesia: A Sound and Emotion Guided AI Painter

The Sound of Water: Inferring Physical Properties from Pouring Liquids

Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

最近の投稿

最近のコメント

アーカイブ

カテゴリー