cs.MM」カテゴリーアーカイブ

VINCIE: Unlocking In-context Image Editing from Video

要約 コンテキスト内画像編集は、テキストと以前に生成された画像を含むコンテキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | VINCIE: Unlocking In-context Image Editing from Video はコメントを受け付けていません

HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios

要約 アクションセグメンテーションは、高レベルのビデオ理解における中心的な課題で … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.RO, eess.IV | HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios はコメントを受け付けていません

Teaching Physical Awareness to LLMs through Sounds

要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | Teaching Physical Awareness to LLMs through Sounds はコメントを受け付けていません

Teaching Physical Awareness to LLMs through Sounds

要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | Teaching Physical Awareness to LLMs through Sounds はコメントを受け付けていません

EVA: An Embodied World Model for Future Video Anticipation

要約 ビデオ生成モデルは、将来の状態をシミュレートする際に大きな進歩を遂げ、具体 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO | EVA: An Embodied World Model for Future Video Anticipation はコメントを受け付けていません

StereoVAE: A lightweight stereo-matching system using embedded GPUs

要約 組み込みGPUを介してステレオマッチング用の軽量システムを提示します。 ス … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | StereoVAE: A lightweight stereo-matching system using embedded GPUs はコメントを受け付けていません

Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation

要約 生成モデルを開発して、象徴的な音楽を作成または条件付けて作成することは、デ … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation はコメントを受け付けていません

SplArt: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting

要約 毎日の環境で一般的な明確なオブジェクトの再構築は、拡張/仮想現実とロボット … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM, cs.RO | SplArt: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting はコメントを受け付けていません

LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward

要約 視覚障害のある(VI)個人(NIG-VI)のナビゲーション命令生成は重要で … 続きを読む

カテゴリー: cs.CL, cs.MM | LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward はコメントを受け付けていません

Sounding that Object: Interactive Object-Aware Image to Audio Generation

要約 複雑なオーディオビジュアルシーンに対して正確なサウンドを生成することは、特 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | Sounding that Object: Interactive Object-Aware Image to Audio Generation はコメントを受け付けていません