cs.CV」カテゴリーアーカイブ

AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers

要約 オーディオ駆動型のビデオ生成の最近の進歩にもかかわらず、既存の方法は主に顔 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers はコメントを受け付けていません

CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification

要約 Clip-EBCを提案します。Clip-EBCは、正確な群衆密度の推定のた … 続きを読む

カテゴリー: cs.CV | CLIP-EBC: CLIP Can Count Accurately through Enhanced Blockwise Classification はコメントを受け付けていません

FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model

要約 現在、命令ベースの画像編集方法は、ビジョン言語モデル(VLM)の強力なクロ … 続きを読む

カテゴリー: cs.CV | FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model はコメントを受け付けていません

Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

要約 視覚的に魅力的な画像を生成することは、最新のテキストからイメージまでの生成 … 続きを読む

カテゴリー: cs.CV | Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization はコメントを受け付けていません

Attention IoU: Examining Biases in CelebA using Attention Maps

要約 コンピュータービジョンモデルは、幅広いデータセットとタスクにわたってバイア … 続きを読む

カテゴリー: cs.CV, cs.LG | Attention IoU: Examining Biases in CelebA using Attention Maps はコメントを受け付けていません

Towards Online Multi-Modal Social Interaction Understanding

要約 マルチモーダルソーシャルインタラクション理解(MMSI)は、人間とロボット … 続きを読む

カテゴリー: cs.CV | Towards Online Multi-Modal Social Interaction Understanding はコメントを受け付けていません

FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs

要約 1時間のビデオでの情報検索は、特に目的の情報がフレームの小さなサブセット内 … 続きを読む

カテゴリー: cs.CV | FALCONEye: Finding Answers and Localizing Content in ONE-hour-long videos with multi-modal LLMs はコメントを受け付けていません

SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation

要約 参照ビデオオブジェクトセグメンテーション(RVO)は、自然言語表現に依存し … 続きを読む

カテゴリー: cs.CV | SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation はコメントを受け付けていません

Unpaired Translation of Chest X-ray Images for Lung Opacity Diagnosis via Adaptive Activation Masks and Cross-Domain Alignment

要約 胸部X線X線写真(CXR)は、心肺疾患の診断と監視において極めて重要な役割 … 続きを読む

カテゴリー: cs.CV, eess.IV | Unpaired Translation of Chest X-ray Images for Lung Opacity Diagnosis via Adaptive Activation Masks and Cross-Domain Alignment はコメントを受け付けていません

GENIUS: A Generative Framework for Universal Multimodal Search

要約 生成検索は、クエリに基づいてターゲットデータの識別子(ID)を生成する情報 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IR, cs.LG | GENIUS: A Generative Framework for Universal Multimodal Search はコメントを受け付けていません