「cs.CV」カテゴリーアーカイブ

OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

投稿日: 2025年5月30日作成者: jarxiv

要約このレポートでは、マルチモーダルの理解と生成を統合するためのシンプルで軽量 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories

投稿日: 2025年5月30日作成者: jarxiv

要約人間がオブジェクトを把握するとき、彼らは自然に心の中で軌跡を形成して、特定 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

ImmunoDiff: A Diffusion Model for Immunotherapy Response Prediction in Lung Cancer

投稿日: 2025年5月30日作成者: jarxiv

要約非小細胞肺癌（NSCLC）における免疫療法反応を正確に予測することは、依然 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Grounded Reinforcement Learning for Visual Reasoning

投稿日: 2025年5月30日作成者: jarxiv

要約思考チェーンを介した強化学習（RL）は、数学やコーディングなどのタスクで大 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning

投稿日: 2025年5月30日作成者: jarxiv

要約いくつかのショット学習は、一部のクラスでラベル付けされたサンプルの量が非常 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

BrainMRDiff: A Diffusion Model for Anatomically Consistent Brain MRI Synthesis

投稿日: 2025年5月30日作成者: jarxiv

要約正確な脳腫瘍診断は、複数の磁気共鳴画像（MRI）配列の評価に依存しています … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

Mobi-$π$: Mobilizing Your Robot Learning Policy

投稿日: 2025年5月30日作成者: jarxiv

要約学んだ視覚運動ポリシーは、ますます複雑な操作タスクを実行することができます … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

投稿日: 2025年5月30日作成者: jarxiv

要約 MLLMSは、最近のビデオ質問のために広く研究されています。ただし、既存 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

投稿日: 2025年5月30日作成者: jarxiv

要約視覚的なプロンプトチューニング（VPT）は、ほとんどのモデルパラメーターを … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CLDTracker: A Comprehensive Language Description for Visual Tracking

投稿日: 2025年5月30日作成者: jarxiv

要約投票は、動的な外観の変化、閉塞、および背景乱れにより、コンピュータービジョ … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

OpenUni: A Simple Baseline for Unified Multimodal Understanding and Generation

SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories

ImmunoDiff: A Diffusion Model for Immunotherapy Response Prediction in Lung Cancer

Grounded Reinforcement Learning for Visual Reasoning

CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning

BrainMRDiff: A Diffusion Model for Anatomically Consistent Brain MRI Synthesis

Mobi-$π$: Mobilizing Your Robot Learning Policy

VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

DA-VPT: Semantic-Guided Visual Prompt Tuning for Vision Transformers

CLDTracker: A Comprehensive Language Description for Visual Tracking

最近の投稿

最近のコメント

アーカイブ

カテゴリー