cs.MM」カテゴリーアーカイブ

Kandinsky 3.0 Technical Report

要約 我々は、潜在拡散に基づく大規模なテキストから画像への生成モデルである Ka … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Kandinsky 3.0 Technical Report はコメントを受け付けていません

MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

要約 ビデオ内の動きは主に、カメラの動きによって引き起こされるカメラの動きと、オ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | MotionCtrl: A Unified and Flexible Motion Controller for Video Generation はコメントを受け付けていません

Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers

要約 深度センサーの利用可能性が高まるにつれ、色情報と深度データを組み合わせるマ … 続きを読む

カテゴリー: cs.CV, cs.MM | Source-Free Domain Adaptation for RGB-D Semantic Segmentation with Vision Transformers はコメントを受け付けていません

OneLLM: One Framework to Align All Modalities with Language

要約 マルチモーダル大規模言語モデル (MLLM) は、その強力なマルチモーダル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | OneLLM: One Framework to Align All Modalities with Language はコメントを受け付けていません

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing

要約 ビデオ ダビングは、映画やテレビ番組の元の音声をターゲット言語の音声に翻訳 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MM, eess.AS | VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing はコメントを受け付けていません

Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation

要約 Radiology Report Generation (RRG) は、視 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Rethinking Radiology Report Generation via Causal Reasoning and Counterfactual Augmentation はコメントを受け付けていません

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

要約 広範な画像とテキストのペアデータを利用した事前トレーニング済み視覚言語モデ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model はコメントを受け付けていません

Investigation of UAV Detection in Images with Complex Backgrounds and Rainy Artifacts

要約 無人航空機 (UAV) をリアルタイムで検出するために、コンピューター ビ … 続きを読む

カテゴリー: cs.CV, cs.MM, eess.IV | Investigation of UAV Detection in Images with Complex Backgrounds and Rainy Artifacts はコメントを受け付けていません

Rethinking Event-based Human Pose Estimation with 3D Event Representations

要約 人間の姿勢推定は、コンピュータビジョンにおける基本的かつ魅力的なタスクであ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | Rethinking Event-based Human Pose Estimation with 3D Event Representations はコメントを受け付けていません

RTQ: Rethinking Video-language Understanding Based on Image-text Model

要約 ビデオ言語理解における最近の進歩は、画像-テキストモデルの基礎の上に確立さ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | RTQ: Rethinking Video-language Understanding Based on Image-text Model はコメントを受け付けていません