cs.CV」カテゴリーアーカイブ

RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives

要約 最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | RACCooN: A Versatile Instructional Video Editing Framework with Auto-Generated Narratives はコメントを受け付けていません

Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models

要約 逆ビデオ問題を解決するために画像モデルを単純に使用すると、生成されたビデオ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Warped Diffusion: Solving Video Inverse Problems with Image Diffusion Models はコメントを受け付けていません

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

要約 マルチモーダル大規模言語モデル (MLLM) の最近の進歩にもかかわらず、 … 続きを読む

カテゴリー: cs.CL, cs.CV | Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages はコメントを受け付けていません

Metric as Transform: Exploring beyond Affine Transform for Interpretable Neural Network

要約 さまざまなアーキテクチャの人工ニューラル ネットワークは、通常、中核でアフ … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.NE | Metric as Transform: Exploring beyond Affine Transform for Interpretable Neural Network はコメントを受け付けていません

Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning

要約 ビジョン言語モデル (VLM) は、幅広い下流タスクにわたって優れたパフォ … 続きを読む

カテゴリー: cs.CL, cs.CV | Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning はコメントを受け付けていません

Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models

要約 大規模マルチモーダル モデル (LMM) は、自己回帰モデリングに基づいた … 続きを読む

カテゴリー: cs.CV | Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models はコメントを受け付けていません

Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

要約 マルチモーダル大規模言語モデル (MLLM) は、ビジュアル モダリティと … 続きを読む

カテゴリー: cs.CL, cs.CV | Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining はコメントを受け付けていません

A Framework for Evaluating Predictive Models Using Synthetic Image Covariates and Longitudinal Data

要約 私たちは、複雑な共変量(目のスキャンなど)と長期的な観察(経時的な視力など … 続きを読む

カテゴリー: cs.CV | A Framework for Evaluating Predictive Models Using Synthetic Image Covariates and Longitudinal Data はコメントを受け付けていません

Training Better Deep Learning Models Using Human Saliency

要約 この研究では、画像の顕著な領域に関する人間の判断をディープ畳み込みニューラ … 続きを読む

カテゴリー: cs.CV | Training Better Deep Learning Models Using Human Saliency はコメントを受け付けていません

Improve Vision Language Model Chain-of-thought Reasoning

要約 ビジョン言語モデル (VLM) における思考連鎖 (CoT) 推論は、解釈 … 続きを読む

カテゴリー: 68T07, cs.AI, cs.CV | Improve Vision Language Model Chain-of-thought Reasoning はコメントを受け付けていません