cs.MM」カテゴリーアーカイブ

mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model

要約 最近、ラージ言語モデル (LLM) の強力なテキスト作成能力により、論文の … 続きを読む

カテゴリー: cs.CL, cs.MM | mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model はコメントを受け付けていません

Language Models as Black-Box Optimizers for Vision-Language Models

要約 Web スケールのデータセットで事前トレーニングされたビジョン言語モデル … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | Language Models as Black-Box Optimizers for Vision-Language Models はコメントを受け付けていません

Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets

要約 この論文では、人間が注釈を付けたキャプションと Web で収集したキャプシ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets はコメントを受け付けていません

Multi-task learning with cross-task consistency for improved depth estimation in colonoscopy

要約 結腸内視鏡検査スクリーニングは、潰瘍や癌性ポリープなどの結腸と直腸の異常を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Multi-task learning with cross-task consistency for improved depth estimation in colonoscopy はコメントを受け付けていません

Automated interpretation of congenital heart disease from multi-view echocardiograms

要約 先天性心疾患(CHD)は、中国で最も一般的な先天異常であり、新生児死亡の主 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, eess.IV, physics.med-ph | Automated interpretation of congenital heart disease from multi-view echocardiograms はコメントを受け付けていません

Motion-Conditioned Image Animation for Video Editing

要約 ビデオ編集のためのモーションコンディショニングされたイメージ アニメーショ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | Motion-Conditioned Image Animation for Video Editing はコメントを受け付けていません

VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models

要約 拡散モデルは、画像とビデオの生成において大きな成功を収めています。 これに … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | VIDiff: Translating Videos via Multi-Modal Instructions with Diffusion Models はコメントを受け付けていません

Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes

要約 ディープフェイク検出の課題は、音声や視覚の研究者によって解決されるには程遠 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS, I.2.10 | Vulnerability of Automatic Identity Recognition to Audio-Visual Deepfakes はコメントを受け付けていません

BAND-2k: Banding Artifact Noticeable Database for Banding Detection and Quality Assessment

要約 階段状の輪郭とも呼ばれるバンディングは、圧縮アルゴリズムまたは量子化アルゴ … 続きを読む

カテゴリー: cs.CV, cs.DB, cs.MM | BAND-2k: Banding Artifact Noticeable Database for Banding Detection and Quality Assessment はコメントを受け付けていません

Cinematic Behavior Transfer via NeRF-based Differentiable Filming

要約 デジタル メディアとビデオ制作の進化する状況では、カメラの動きやキャラクタ … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.HC, cs.MM | Cinematic Behavior Transfer via NeRF-based Differentiable Filming はコメントを受け付けていません