cs.MM」カテゴリーアーカイブ

Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling

要約 インテリジェントな接続性の現代の時代において、システムが人間の行動状態を認 … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions

要約 限られた語彙を持つ非ネイティブスピーカーは、それらを視覚化することができた … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.MM | コメントする

Human-Centric Foundation Models: Perception, Generation and Agentic Modeling

要約 人間の理解と生成は、デジタル人間とヒューマノイドの実施形態をモデル化するた … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントする

TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

要約 マルチモーダル大手言語モデル(MLLMS)は、短いビデオ理解で印象的なパフ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | コメントする

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | コメントする

Learning Musical Representations for Music Performance Question Answering

要約 音楽パフォーマンスは、視聴覚モデリングの代表的なシナリオです。 まばらなオ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | コメントする

Latent Swap Joint Diffusion for Long-Form Audio Generation

要約 グローバルビューの拡散または反復生成を使用した長期のオーディオ生成に関する … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS | コメントする

Long-tailed Medical Diagnosis with Relation-aware Representation Learning and Iterative Classifier Calibration

要約 最近、コンピューター支援診断により、有望なパフォーマンスが実証されており、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | コメントする

Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis

要約 特にGPTシリーズとO1モデルで、テキストベースの大手言語モデル(LLMS … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis はコメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment はコメントを受け付けていません