cs.CV」カテゴリーアーカイブ

OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

要約 このレポートでは、マルチモーダルの理解と生成を統合するためのシンプルで軽量 … 続きを読む

カテゴリー: cs.CV | OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation はコメントを受け付けていません

SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories

要約 人間がオブジェクトを把握するとき、彼らは自然に心の中で軌跡を形成して、特定 … 続きを読む

カテゴリー: cs.CV | SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories はコメントを受け付けていません

ImmunoDiff: A Diffusion Model for Immunotherapy Response Prediction in Lung Cancer

要約 非小細胞肺癌(NSCLC)における免疫療法反応を正確に予測することは、依然 … 続きを読む

カテゴリー: cs.CV | ImmunoDiff: A Diffusion Model for Immunotherapy Response Prediction in Lung Cancer はコメントを受け付けていません

Grounded Reinforcement Learning for Visual Reasoning

要約 思考チェーンを介した強化学習(RL)は、数学やコーディングなどのタスクで大 … 続きを読む

カテゴリー: cs.CV | Grounded Reinforcement Learning for Visual Reasoning はコメントを受け付けていません

CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning

要約 いくつかのショット学習は、一部のクラスでラベル付けされたサンプルの量が非常 … 続きを読む

カテゴリー: cs.CV | CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning はコメントを受け付けていません

BrainMRDiff: A Diffusion Model for Anatomically Consistent Brain MRI Synthesis

要約 正確な脳腫瘍診断は、複数の磁気共鳴画像(MRI)配列の評価に依存しています … 続きを読む

カテゴリー: cs.CV, eess.IV | BrainMRDiff: A Diffusion Model for Anatomically Consistent Brain MRI Synthesis はコメントを受け付けていません

Mobi-$π$: Mobilizing Your Robot Learning Policy

要約 学んだ視覚運動ポリシーは、ますます複雑な操作タスクを実行することができます … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Mobi-$π$: Mobilizing Your Robot Learning Policy はコメントを受け付けていません

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

要約 MLLMSは、最近のビデオ質問のために広く研究されています。 ただし、既存 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos はコメントを受け付けていません

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

要約 視覚的なプロンプトチューニング(VPT)は、ほとんどのモデルパラメーターを … 続きを読む

カテゴリー: cs.CV | DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers はコメントを受け付けていません

CLDTracker: A Comprehensive Language Description for Visual Tracking

要約 投票は、動的な外観の変化、閉塞、および背景乱れにより、コンピュータービジョ … 続きを読む

カテゴリー: cs.AI, cs.CV | CLDTracker: A Comprehensive Language Description for Visual Tracking はコメントを受け付けていません