cs.MM」カテゴリーアーカイブ

Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets

要約 この論文では、人間が注釈を付けたキャプションと Web で収集したキャプシ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets はコメントを受け付けていません

Multi-task learning with cross-task consistency for improved depth estimation in colonoscopy

要約 結腸内視鏡検査スクリーニングは、潰瘍や癌性ポリープなどの結腸と直腸の異常を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Multi-task learning with cross-task consistency for improved depth estimation in colonoscopy はコメントを受け付けていません

Automated interpretation of congenital heart disease from multi-view echocardiograms

要約 先天性心疾患(CHD)は、中国で最も一般的な先天異常であり、新生児死亡の主 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV, physics.med-ph | Automated interpretation of congenital heart disease from multi-view echocardiograms はコメントを受け付けていません

Motion-Conditioned Image Animation for Video Editing

要約 ビデオ編集のためのモーションコンディショニングされたイメージ アニメーショ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | Motion-Conditioned Image Animation for Video Editing はコメントを受け付けていません

VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models

要約 拡散モデルは、画像とビデオの生成において大きな成功を収めています。 これに … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models はコメントを受け付けていません

Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

要約 ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS, I.2.10 | Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes はコメントを受け付けていません

BAND-2k: Banding Artifact Noticeable Database for Banding Detection and Quality Assessment

要約 階段状の輪郭とも呼ばれるバンディングは、圧縮アルゴリズムまたは量子化アルゴ … 続きを読む

カテゴリー: cs.CV, cs.DB, cs.MM | BAND-2k: Banding Artifact Noticeable Database for Banding Detection and Quality Assessment はコメントを受け付けていません

Cinematic Behavior Transfer via NeRF-based Differentiable Filming

要約 デジタル メディアとビデオ制作の進化する状況では、カメラの動きやキャラクタ … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.HC, cs.MM | Cinematic Behavior Transfer via NeRF-based Differentiable Filming はコメントを受け付けていません

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition

要約 対照的クロスモダリティ事前トレーニングは、最近さまざまな分野で目覚ましい成 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Accurate Speech Emotion Recognition はコメントを受け付けていません

CASR: Refining Action Segmentation via Magrinalizing Frame-levle Causal Relationships

要約 ディープラーニングと因果関係発見を統合することで、Temporal Act … 続きを読む

カテゴリー: cs.CV, cs.MM | CASR: Refining Action Segmentation via Magrinalizing Frame-levle Causal Relationships はコメントを受け付けていません