cs.MM」カテゴリーアーカイブ

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

要約 ビデオ言語の事前トレーニングにより、下流のさまざまなビデオ言語タスクのパフ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training はコメントを受け付けていません

Learning to Estimate 3D Human Pose from Point Cloud

要約 3D 姿勢推定は、コンピューター ビジョンにおける困難な問題です。 既存の … 続きを読む

カテゴリー: cs.CV, cs.MM | Learning to Estimate 3D Human Pose from Point Cloud はコメントを受け付けていません

Generative Colorization of Structured Mobile Web Pages

要約 色は Web ページの重要なデザイン要素であり、閲覧者の感情や Web サ … 続きを読む

カテゴリー: cs.CV, cs.MM | Generative Colorization of Structured Mobile Web Pages はコメントを受け付けていません

MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation

要約 マルチモーダル コンテンツで応答することは、インテリジェントな会話型エージ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation はコメントを受け付けていません

From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models

要約 大規模言語モデル (LLM) は、新しい言語タスクに対する優れたゼロショッ … 続きを読む

カテゴリー: cs.CV, cs.MM | From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models はコメントを受け付けていません

Attention-Aware Anime Line Drawing Colorization

要約 アニメの線画の自動彩色は、アニメ業界に大きなメリットをもたらすことから、近 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | Attention-Aware Anime Line Drawing Colorization はコメントを受け付けていません

QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity

要約 既存のスタイル転送アルゴリズムのメカニズムは、ハイブリッド損失関数を最小化 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity はコメントを受け付けていません

MAViL: Masked Audio-Video Learners

要約 オーディオビジュアル表現をトレーニングするために、Masked Audio … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MAViL: Masked Audio-Video Learners はコメントを受け付けていません

Overview of The MediaEval 2022 Predicting Video Memorability Task

要約 このホワイト ペーパーでは、MediaEval2022 の一部として、ビデ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | Overview of The MediaEval 2022 Predicting Video Memorability Task はコメントを受け付けていません

Memories are One-to-Many Mapping Alleviators in Talking Face Generation

要約 話す顔の生成は、入力オーディオによって駆動される対象人物の写真のようにリア … 続きを読む

カテゴリー: cs.CV, cs.MM | Memories are One-to-Many Mapping Alleviators in Talking Face Generation はコメントを受け付けていません