cs.CV」カテゴリーアーカイブ

OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning

要約 オープンボキャブラリーセグメンテーション(OVS)は、事前定義されたカテゴ … 続きを読む

カテゴリー: cs.CV | OpenSeg-R: Improving Open-Vocabulary Segmentation via Step-by-Step Visual Reasoning はコメントを受け付けていません

Creatively Upscaling Images with Global-Regional Priors

要約 現代の拡散モデルは、テキストからイメージの生成において顕著な能力を示してい … 続きを読む

カテゴリー: cs.CV, cs.MM | Creatively Upscaling Images with Global-Regional Priors はコメントを受け付けていません

Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On

要約 拡散モデルは、Virtual Try-On(VTON)タスクで予備的な成功 … 続きを読む

カテゴリー: cs.CV, cs.MM | Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On はコメントを受け付けていません

Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction

要約 ビデオバーチャルトライオンは、特定の衣服を備えたビデオで主題をシームレスに … 続きを読む

カテゴリー: cs.CV, cs.MM | Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction はコメントを受け付けていません

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

要約 分散除外(OOD)検出とセグメンテーションは、自律運転やロボット支援手術な … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation はコメントを受け付けていません

Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding

要約 この作業では、最初の離散拡散マルチモーダル大手言語モデル(DMLLM)であ … 続きを読む

カテゴリー: cs.CV | Dimple: Discrete Diffusion Multimodal Large Language Model with Parallel Decoding はコメントを受け付けていません

An Effective Training Framework for Light-Weight Automatic Speech Recognition Models

要約 深い学習における最近の進歩により、計算およびメモリの制約を無視しながら有望 … 続きを読む

カテゴリー: cs.CV | An Effective Training Framework for Light-Weight Automatic Speech Recognition Models はコメントを受け付けていません

Native Segmentation Vision Transformers

要約 均一なダウンサンプリングは、視覚バックボーンの空間分解能を減らすための事実 … 続きを読む

カテゴリー: cs.CV, cs.LG | Native Segmentation Vision Transformers はコメントを受け付けていません

Seeing through Satellite Images at Street Views

要約 このペーパーでは、衛星画像と指定されたカメラの位置または軌道を指定したフォ … 続きを読む

カテゴリー: cs.CV | Seeing through Satellite Images at Street Views はコメントを受け付けていません

PAEFF: Precise Alignment and Enhanced Gated Feature Fusion for Face-Voice Association

要約 私たちは、最近マルチモーダルコミュニティに関心を集めている顔と声の間の学習 … 続きを読む

カテゴリー: cs.AI, cs.CV | PAEFF: Precise Alignment and Enhanced Gated Feature Fusion for Face-Voice Association はコメントを受け付けていません