cs.MM」カテゴリーアーカイブ

AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information?

要約 近年、GPT-4o、Gemini 1.5 Pro、Reka Coreなどの … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM, cs.SD, eess.AS | AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? はコメントを受け付けていません

DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder

要約 最近の研究により、音声による話し顔の生成は大幅に進歩しましたが、生成された … 続きを読む

カテゴリー: cs.CV, cs.MM | DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder はコメントを受け付けていません

Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings

要約 既存の Multimoal Large Language Model (M … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings はコメントを受け付けていません

LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos

要約 ビデオの理解は目覚ましい進歩を遂げているにもかかわらず、ほとんどの取り組み … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | LongVALE: Vision-Audio-Language-Event Benchmark Towards Time-Aware Omni-Modal Perception of Long Videos はコメントを受け付けていません

WavChat: A Survey of Spoken Dialogue Models

要約 GPT-4o などのシステムに代表される音声対話モデルの最近の進歩は、音声 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | WavChat: A Survey of Spoken Dialogue Models はコメントを受け付けていません

Automatic Album Sequencing

要約 アルバムの順序付けは、アルバム制作プロセスの重要な部分です。 最近、コレク … 続きを読む

カテゴリー: 68T07, cs.AI, cs.CL, cs.LG, cs.MM, cs.SD, eess.AS, I.2.6 | Automatic Album Sequencing はコメントを受け付けていません

Health AI Developer Foundations

要約 堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV | Health AI Developer Foundations はコメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

要約 この論文では、マルチモーダル音声生成のための新しい技術を動機付けるために、 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis はコメントを受け付けていません

Video-Guided Foley Sound Generation with Multimodal Controls

要約 ビデオのサウンド エフェクトを生成するには、多くの場合、現実のソースから大 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Video-Guided Foley Sound Generation with Multimodal Controls はコメントを受け付けていません

Health AI Developer Foundations

要約 堅牢な医療機械学習 (ML) モデルは、臨床研究を加速し、ワークフローと結 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV | Health AI Developer Foundations はコメントを受け付けていません