「cs.CV」カテゴリーアーカイブ

SITReg: Multi-resolution architecture for symmetric, inverse consistent, and topology preserving image registration

投稿日: 2024年12月3日作成者: jarxiv

要約ディープラーニングは、2 つの画像の座標系間のマッピングを見つけることが … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Demystify Mamba in Vision: A Linear Attention Perspective

投稿日: 2024年12月3日作成者: jarxiv

要約 Mamba は、線形計算の複雑さを備えた効果的な状態空間モデルです。最近 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models

投稿日: 2024年12月3日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) は、ビジュアルタスク全体で … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

投稿日: 2024年12月3日作成者: jarxiv

要約視覚言語モデル (VLM) は、さまざまな応用において目覚ましい進歩を遂げ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

投稿日: 2024年12月3日作成者: jarxiv

要約幻覚は、マルチモーダル大規模言語モデル (MLLM) に永続的な課題をもた … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Scaling nnU-Net for CBCT Segmentation

投稿日: 2024年12月3日作成者: jarxiv

要約この論文では、特に ToothFairy2 チャレンジの範囲において、コー … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MVBoost: Boost 3D Reconstruction with Multi-View Refinement

投稿日: 2024年12月3日作成者: jarxiv

要約 3D オブジェクトの再構築における最近の進歩は目覚ましいものですが、現在の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Enhancing the automatic segmentation and analysis of 3D liver vasculature models

投稿日: 2024年12月3日作成者: jarxiv

要約肝臓がん患者の外科的評価には、医療画像から血管樹を識別する必要があります。 … 続きを読む →

カテゴリー: cs.AI, cs.CV, eess.IV | コメントを受け付けていません

Enhancing Compositional Text-to-Image Generation with Reliable Random Seeds

投稿日: 2024年12月3日作成者: jarxiv

要約テキストから画像への拡散モデルは、任意のテキストプロンプトからリアルな画 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Video-Driven Graph Network-Based Simulators

投稿日: 2024年12月3日作成者: jarxiv

要約デザイン、映画撮影、ゲームにおける本物のようなビジュアライゼーションは、正 … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

SITReg: Multi-resolution architecture for symmetric, inverse consistent, and topology preserving image registration

Demystify Mamba in Vision: A Linear Attention Perspective

PAR: Prompt-Aware Token Reduction Method for Efficient Large Multimodal Models

FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

ODE: Open-Set Evaluation of Hallucinations in Multimodal Large Language Models

Scaling nnU-Net for CBCT Segmentation

MVBoost: Boost 3D Reconstruction with Multi-View Refinement

Enhancing the automatic segmentation and analysis of 3D liver vasculature models

Enhancing Compositional Text-to-Image Generation with Reliable Random Seeds

Video-Driven Graph Network-Based Simulators

最近の投稿

最近のコメント

アーカイブ

カテゴリー