「cs.MM」カテゴリーアーカイブ

Boosting Diffusion Models with Moving Average Sampling in Frequency Domain

投稿日: 2024年3月27日作成者: jarxiv

要約拡散モデルは最近、画像生成に強力な革命をもたらしました。これらのモデルの … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation

投稿日: 2024年3月26日作成者: jarxiv

要約視聴覚セグメンテーション (AVS) は、視聴覚キューに基づいて音を発する … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

投稿日: 2024年3月25日作成者: jarxiv

要約この論文では、効率的注意スキッピング (EAS) と呼ばれる、マルチモーダ … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

FunQA: Towards Surprising Video Comprehension

投稿日: 2024年3月25日作成者: jarxiv

要約面白いクリップ、創造的なパフォーマンス、視覚的な錯覚など、驚くべきビデオは … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition

投稿日: 2024年3月25日作成者: jarxiv

要約顕著な進歩にもかかわらず、音声感情認識 (SER) は、特に野生の世界では … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

投稿日: 2024年3月25日作成者: jarxiv

要約ビデオ間の編集には、ソースビデオを追加のコントロール (テキストプロン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

Bringing Robots Home: The Rise of AI Robots in Consumer Electronics

投稿日: 2024年3月22日作成者: jarxiv

要約 2024 年 3 月 18 日、NVIDIA は、人型ロボットのトレーニン … 続きを読む →

カテゴリー: cs.MM, cs.RO | コメントを受け付けていません

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

投稿日: 2024年3月22日作成者: jarxiv

要約ビデオ間の編集には、ソースビデオを追加のコントロール (テキストプロン … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting

投稿日: 2024年3月21日作成者: jarxiv

要約ビデオアクションカウンティング (VAC) は、ビデオ内の反復アクショ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM | コメントを受け付けていません

DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance

投稿日: 2024年3月21日作成者: jarxiv

要約振付師はダンスがどのようなものかを決定し、カメラマンはダンスの最終的なプレ … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

Boosting Diffusion Models with Moving Average Sampling in Frequency Domain

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

FunQA: Towards Surprising Video Comprehension

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

Bringing Robots Home: The Rise of AI Robots in Consumer Electronics

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting

DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance

最近の投稿

最近のコメント

アーカイブ

カテゴリー