cs.MM」カテゴリーアーカイブ

Semantically Consistent Person Image Generation

要約 コンテキストを認識している人の画像生成のためのデータ駆動型アプローチを提案 … 続きを読む

カテゴリー: cs.CV, cs.MM | Semantically Consistent Person Image Generation はコメントを受け付けていません

Bridging Compressed Image Latents and Multimodal Large Language Models

要約 このホワイトペーパーでは、マルチモーダルの大手言語モデル(MLLM)を採用 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM | Bridging Compressed Image Latents and Multimodal Large Language Models はコメントを受け付けていません

Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications

要約 このホワイトペーパーでは、生成セマンティックコミュニケーションズ(GENS … 続きを読む

カテゴリー: cs.CV, cs.IT, cs.MM, eess.SP, math.IT | Token Communications: A Unified Framework for Cross-modal Context-aware Semantic Communications はコメントを受け付けていません

Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

要約 マルチモーダル大手言語モデル(MLLMS)の急速な進行により、さまざまなマ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM | Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination はコメントを受け付けていません

Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling

要約 インテリジェントな接続性の現代の時代において、システムが人間の行動状態を認 … 続きを読む

カテゴリー: cs.CV, cs.MM | Interpretable Concept-based Deep Learning Framework for Multimodal Human Behavior Modeling はコメントを受け付けていません

Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions

要約 限られた語彙を持つ非ネイティブスピーカーは、それらを視覚化することができた … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR, cs.MM | Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions はコメントを受け付けていません

Human-Centric Foundation Models: Perception, Generation and Agentic Modeling

要約 人間の理解と生成は、デジタル人間とヒューマノイドの実施形態をモデル化するた … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM | Human-Centric Foundation Models: Perception, Generation and Agentic Modeling はコメントを受け付けていません

TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning

要約 マルチモーダル大手言語モデル(MLLMS)は、短いビデオ理解で印象的なパフ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning はコメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment はコメントを受け付けていません

Learning Musical Representations for Music Performance Question Answering

要約 音楽パフォーマンスは、視聴覚モデリングの代表的なシナリオです。 まばらなオ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Learning Musical Representations for Music Performance Question Answering はコメントを受け付けていません