「cs.MM」カテゴリーアーカイブ

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

投稿日: 2024年12月2日作成者: jarxiv

要約ビデオの理解は目覚ましい進歩を遂げているにもかかわらず、ほとんどの取り組み … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

WavChat: A Survey of Spoken Dialogue Models

投稿日: 2024年11月27日作成者: jarxiv

要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む →

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Automatic Album Sequencing

投稿日: 2024年11月27日作成者: jarxiv

要約アルバムの順序付けは、アルバム制作プロセスの重要な部分です。最近、コレク … 続きを読む →

カテゴリー: 68T07, cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | コメントを受け付けていません

Health AI Developer Foundations

投稿日: 2024年11月27日作成者: jarxiv

要約堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

投稿日: 2024年11月27日作成者: jarxiv

要約この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Video-Guided Foley Sound Generation with Multimodal Controls

投稿日: 2024年11月27日作成者: jarxiv

要約ビデオのサウンドエフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Health AI Developer Foundations

投稿日: 2024年11月25日作成者: jarxiv

要約堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV | コメントを受け付けていません

HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset

投稿日: 2024年11月22日作成者: jarxiv

要約この寄稿では、イメージソースメソッドを使用して作成された 7 次アンビ … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

投稿日: 2024年11月21日作成者: jarxiv

要約高度なビデオ分析機能を備えた大規模マルチモーダルモデル (LMM) が、 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Identity Preserving 3D Head Stylization with Multiview Score Distillation

投稿日: 2024年11月21日作成者: jarxiv

要約 3D 頭部の様式化により、リアルな顔の特徴が芸術的な表現に変換され、ゲーム … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

WavChat: A Survey of Spoken Dialogue Models

Automatic Album Sequencing

Health AI Developer Foundations

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

Video-Guided Foley Sound Generation with Multimodal Controls

Health AI Developer Foundations

HARP: A Large-Scale Higher-Order Ambisonic Room Impulse Response Dataset

VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

Identity Preserving 3D Head Stylization with Multiview Score Distillation

最近の投稿

最近のコメント

アーカイブ

カテゴリー