cs.MM」カテゴリーアーカイブ

Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation

要約 視聴覚セグメンテーション (AVS) は、視聴覚キューに基づいて音を発する … 続きを読む

カテゴリー: cs.CV, cs.MM | Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation はコメントを受け付けていません

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models

要約 この論文では、効率的注意スキッピング (EAS) と呼ばれる、マルチモーダ … 続きを読む

カテゴリー: cs.CL, cs.MM | Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models はコメントを受け付けていません

FunQA: Towards Surprising Video Comprehension

要約 面白いクリップ、創造的なパフォーマンス、視覚的な錯覚など、驚くべきビデオは … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | FunQA: Towards Surprising Video Comprehension はコメントを受け付けていません

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition

要約 顕著な進歩にもかかわらず、音声感情認識 (SER) は、特に野生の世界では … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition はコメントを受け付けていません

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

要約 ビデオ間の編集には、ソース ビデオを追加のコントロール (テキスト プロン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks はコメントを受け付けていません

Bringing Robots Home: The Rise of AI Robots in Consumer Electronics

要約 2024 年 3 月 18 日、NVIDIA は、人型ロボットのトレーニン … 続きを読む

カテゴリー: cs.MM, cs.RO | Bringing Robots Home: The Rise of AI Robots in Consumer Electronics はコメントを受け付けていません

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks

要約 ビデオ間の編集には、ソース ビデオを追加のコントロール (テキスト プロン … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks はコメントを受け付けていません

IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting

要約 ビデオ アクション カウンティング (VAC) は、ビデオ内の反復アクショ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | IVAC-P2L: Leveraging Irregular Repetition Priors for Improving Video Action Counting はコメントを受け付けていません

DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance

要約 振付師はダンスがどのようなものかを決定し、カメラマンはダンスの最終的なプレ … 続きを読む

カテゴリー: cs.CV, cs.MM | DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance はコメントを受け付けていません

WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

要約 人間の意図に基づく水路の認識は、水環境における無人水上車両 (USV) の … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar はコメントを受け付けていません