cs.CV」カテゴリーアーカイブ

PaliGemma: A versatile 3B VLM for transfer

要約 PaliGemma は、SigLIP-So400m ビジョン エンコーダと … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | PaliGemma: A versatile 3B VLM for transfer はコメントを受け付けていません

Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs

要約 この論文では、視覚情報がモデルの内部常識知識と矛盾する、マルチモーダル大規 … 続きを読む

カテゴリー: cs.CL, cs.CV | Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs はコメントを受け付けていません

OpenDAS: Open-Vocabulary Domain Adaptation for Segmentation

要約 最近、視覚言語モデル (VLM) は、事前定義されたオブジェクト クラスの … 続きを読む

カテゴリー: cs.CV | OpenDAS: Open-Vocabulary Domain Adaptation for Segmentation はコメントを受け付けていません

Progressive Autoregressive Video Diffusion Models

要約 現在のフロンティアビデオ普及モデルは、高品質ビデオの生成において顕著な結果 … 続きを読む

カテゴリー: cs.CV, cs.LG | Progressive Autoregressive Video Diffusion Models はコメントを受け付けていません

RayEmb: Arbitrary Landmark Detection in X-Ray Images Using Ray Embedding Subspace

要約 術前に取得した CT スキャンと X 線画像の術中の 2D-3D レジスト … 続きを読む

カテゴリー: cs.CV | RayEmb: Arbitrary Landmark Detection in X-Ray Images Using Ray Embedding Subspace はコメントを受け付けていません

DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

要約 拡散モデルは、ビジュアル生成の主要なアプローチとなっています。 これらは、 … 続きを読む

カテゴリー: cs.CV, cs.LG | DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation はコメントを受け付けていません

Agent S: An Open Agentic Framework that Uses Computers Like a Human

要約 Agent S は、グラフィカル ユーザー インターフェイス (GUI) … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Agent S: An Open Agentic Framework that Uses Computers Like a Human はコメントを受け付けていません

Visual Scratchpads: Enabling Global Reasoning in Vision

要約 最新の視覚モデルは、局所的な特徴がターゲットに関する重要な情報を提供するベ … 続きを読む

カテゴリー: cs.CV, cs.LG | Visual Scratchpads: Enabling Global Reasoning in Vision はコメントを受け付けていません

ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

要約 トレーニング中にペアの合成シーン画像を必要としない、効果的なゼロショット … 続きを読む

カテゴリー: cs.CV | ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion はコメントを受け付けていません

On the Evaluation of Generative Robotic Simulations

要約 広範な現実世界のデータを取得するのが難しいため、ロボット シミュレーション … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | On the Evaluation of Generative Robotic Simulations はコメントを受け付けていません