「cs.MM」カテゴリーアーカイブ

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

投稿日: 2023年1月2日作成者: jarxiv

要約ビデオ言語の事前トレーニングにより、下流のさまざまなビデオ言語タスクのパフ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Learning to Estimate 3D Human Pose from Point Cloud

投稿日: 2022年12月27日作成者: jarxiv

要約 3D 姿勢推定は、コンピュータービジョンにおける困難な問題です。既存の … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Generative Colorization of Structured Mobile Web Pages

投稿日: 2022年12月23日作成者: jarxiv

要約色は Web ページの重要なデザイン要素であり、閲覧者の感情や Web サ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation

投稿日: 2022年12月22日作成者: jarxiv

要約マルチモーダルコンテンツで応答することは、インテリジェントな会話型エージ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models

投稿日: 2022年12月22日作成者: jarxiv

要約大規模言語モデル (LLM) は、新しい言語タスクに対する優れたゼロショッ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Attention-Aware Anime Line Drawing Colorization

投稿日: 2022年12月22日作成者: jarxiv

要約アニメの線画の自動彩色は、アニメ業界に大きなメリットをもたらすことから、近 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | コメントを受け付けていません

QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity

投稿日: 2022年12月21日作成者: jarxiv

要約既存のスタイル転送アルゴリズムのメカニズムは、ハイブリッド損失関数を最小化 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

MAViL: Masked Audio-Video Learners

投稿日: 2022年12月16日作成者: jarxiv

要約オーディオビジュアル表現をトレーニングするために、Masked Audio … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Overview of The MediaEval 2022 Predicting Video Memorability Task

投稿日: 2022年12月14日作成者: jarxiv

要約このホワイトペーパーでは、MediaEval2022 の一部として、ビデ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Memories are One-to-Many Mapping Alleviators in Talking Face Generation

投稿日: 2022年12月13日作成者: jarxiv

要約話す顔の生成は、入力オーディオによって駆動される対象人物の写真のようにリア … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training

Learning to Estimate 3D Human Pose from Point Cloud

Generative Colorization of Structured Mobile Web Pages

MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation

From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models

Attention-Aware Anime Line Drawing Colorization

QuantArt: Quantizing Image Style Transfer Towards High Visual Fidelity

MAViL: Masked Audio-Video Learners

Overview of The MediaEval 2022 Predicting Video Memorability Task

Memories are One-to-Many Mapping Alleviators in Talking Face Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー