投稿者「jarxiv」のアーカイブ

Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling

要約 正規の製品ビュー内の分離された衣服の画像と人物の別個の画像が与えられた場合 … 続きを読む

カテゴリー: cs.CV | Enhancing Virtual Try-On with Synthetic Pairs and Error-Aware Noise Scheduling はコメントを受け付けていません

Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs

要約 マルチモーダル モデルの最近の進歩により、視覚認識、推論能力、視覚言語理解 … 続きを読む

カテゴリー: cs.CV | Are They the Same? Exploring Visual Correspondence Shortcomings of Multimodal LLMs はコメントを受け付けていません

DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests

要約 Large Vision-Language Model (LVLM) は、 … 続きを読む

カテゴリー: cs.AI, cs.CV | DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests はコメントを受け付けていません

GLoG-CSUnet: Enhancing Vision Transformers with Adaptable Radiomic Features for Medical Image Segmentation

要約 ビジョン トランスフォーマー (ViT) は、長距離相関を捕捉することによ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | GLoG-CSUnet: Enhancing Vision Transformers with Adaptable Radiomic Features for Medical Image Segmentation はコメントを受け付けていません

Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations

要約 グラフの解釈は視覚的なデータ分析にとって重要ですが、グラフから情報を正確に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Enhancing Financial VQA in Vision Language Models using Intermediate Structured Representations はコメントを受け付けていません

RadGPT: Constructing 3D Image-Text Tumor Datasets

要約 米国では年間 8,500 万件を超える CT スキャンが実行されており、放 … 続きを読む

カテゴリー: cs.CV, eess.IV | RadGPT: Constructing 3D Image-Text Tumor Datasets はコメントを受け付けていません

SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

要約 単一画像の 3D オブジェクトの再構成の問題を研究します。 最近の研究は、 … 続きを読む

カテゴリー: cs.CV, cs.GR | SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images はコメントを受け付けていません

Re-ranking the Context for Multimodal Retrieval Augmented Generation

要約 検索拡張生成 (RAG) は、外部知識を組み込んで大規模言語モデル (LL … 続きを読む

カテゴリー: cs.CV, cs.IR, cs.IT, cs.LG, math.IT | Re-ranking the Context for Multimodal Retrieval Augmented Generation はコメントを受け付けていません

Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation

要約 特殊なドメイン タスクで優れた性能を発揮するように設計された、ゼロショット … 続きを読む

カテゴリー: cs.CV | Test-Time Optimization for Domain Adaptive Open Vocabulary Segmentation はコメントを受け付けていません

Grokking at the Edge of Numerical Stability

要約 グロッキング (長期にわたる過学習の後に起こる突然の一般化) は、深層学習 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML | Grokking at the Edge of Numerical Stability はコメントを受け付けていません