cs.MM」カテゴリーアーカイブ

Learning Musical Representations for Music Performance Question Answering

要約 音楽パフォーマンスは、視聴覚モデリングの代表的なシナリオです。 まばらなオ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Learning Musical Representations for Music Performance Question Answering はコメントを受け付けていません

Latent Swap Joint Diffusion for Long-Form Audio Generation

要約 グローバルビューの拡散または反復生成を使用した長期のオーディオ生成に関する … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | Latent Swap Joint Diffusion for Long-Form Audio Generation はコメントを受け付けていません

Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration

要約 最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration はコメントを受け付けていません

Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

要約 特にGPTシリーズとO1モデルで、テキストベースの大手言語モデル(LLMS … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis はコメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment はコメントを受け付けていません

Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation

要約 マルチモーダルの知識を大規模な言語モデル(LLMS)に統合することは、対話 … 続きを読む

カテゴリー: cs.CL, cs.MM | Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation はコメントを受け付けていません

Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search

要約 このペーパーでは、テキストベースの人の異常検索(TPA)に関するWWW 2 … 続きを読む

カテゴリー: cs.CV, cs.MM | Efficient Vision Language Model Fine-tuning for Text-based Person Anomaly Search はコメントを受け付けていません

Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration

要約 最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration はコメントを受け付けていません

Seeing World Dynamics in a Nutshell

要約 私たちは、空間的に一時的に一貫した方法で、さりげなくキャプチャされたモノク … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | Seeing World Dynamics in a Nutshell はコメントを受け付けていません

LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models

要約 GPT-4のような大規模言語モデル(LLM)と拡張現実感(XR)技術の統合 … 続きを読む

カテゴリー: cs.AI, cs.MM | LLMER: Crafting Interactive Extended Reality Worlds with JSON Data Generated by Large Language Models はコメントを受け付けていません