月別アーカイブ: 2024年4月

MuseumMaker: Continual Style Customization without Catastrophic Forgetting

要約 適切なテキスト プロンプトを備えた、事前トレーニングされた大規模な Tex … 続きを読む

カテゴリー: cs.CV | MuseumMaker: Continual Style Customization without Catastrophic Forgetting はコメントを受け付けていません

Denoising: from classical methods to deep CNNs

要約 この論文は、教育学的方法で画像ノイズ除去の進化を探ることを目的としています … 続きを読む

カテゴリー: cs.CV, math.HO | Denoising: from classical methods to deep CNNs はコメントを受け付けていません

DAVE — A Detect-and-Verify Paradigm for Low-Shot Counting

要約 ロー ショット カウンターは、画像内に注釈が付けられたサンプルがほとんどな … 続きを読む

カテゴリー: cs.CV | DAVE — A Detect-and-Verify Paradigm for Low-Shot Counting はコメントを受け付けていません

Self-Balanced R-CNN for Instance Segmentation

要約 インスタンス セグメンテーション タスクに関する現在の最先端の 2 段階モ … 続きを読む

カテゴリー: cs.CV | Self-Balanced R-CNN for Instance Segmentation はコメントを受け付けていません

TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning

要約 グラフは、複雑なデータの関係を示し、説明するために重要です。 最近、マルチ … 続きを読む

カテゴリー: cs.CV | TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning はコメントを受け付けていません

Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data

要約 CLIP などのマルチモーダル基礎モデルは、優れたゼロショット機能を実証し … 続きを読む

カテゴリー: cs.CV | Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data はコメントを受け付けていません

PhyRecon: Physically Plausible Neural Scene Reconstruction

要約 ニューラル暗黙的表現はマルチビュー 3D 再構成で人気を集めていますが、こ … 続きを読む

カテゴリー: cs.CV | PhyRecon: Physically Plausible Neural Scene Reconstruction はコメントを受け付けていません

EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning

要約 ビジュアル命令チューニングは、タスク固有の命令を使用して事前トレーニングさ … 続きを読む

カテゴリー: cs.AI, cs.CV | EmoVIT: Revolutionizing Emotion Insights with Visual Instruction Tuning はコメントを受け付けていません

Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding

要約 CLIP などの視覚言語モデル (VLM) は、強力な画像テキスト理解能力 … 続きを読む

カテゴリー: cs.CV | Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding はコメントを受け付けていません

Multimodal Semantic-Aware Automatic Colorization with Diffusion Prior

要約 グレースケール画像をカラー化すると、魅力的な視覚体験が得られます。 既存の … 続きを読む

カテゴリー: cs.CV | Multimodal Semantic-Aware Automatic Colorization with Diffusion Prior はコメントを受け付けていません