「cs.MM」カテゴリーアーカイブ

VINCIE: Unlocking In-context Image Editing from Video

投稿日: 2025年6月13日作成者: jarxiv

要約コンテキスト内画像編集は、テキストと以前に生成された画像を含むコンテキスト … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios

投稿日: 2025年6月12日作成者: jarxiv

要約アクションセグメンテーションは、高レベルのビデオ理解における中心的な課題で … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.RO, eess.IV | コメントを受け付けていません

Teaching Physical Awareness to LLMs through Sounds

投稿日: 2025年6月12日作成者: jarxiv

要約大規模な言語モデル（LLM）は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

Teaching Physical Awareness to LLMs through Sounds

投稿日: 2025年6月11日作成者: jarxiv

要約大規模な言語モデル（LLM）は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む →

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | コメントを受け付けていません

EVA: An Embodied World Model for Future Video Anticipation

投稿日: 2025年6月11日作成者: jarxiv

要約ビデオ生成モデルは、将来の状態をシミュレートする際に大きな進歩を遂げ、具体 … 続きを読む →

カテゴリー: cs.CV, cs.MM, cs.RO | コメントを受け付けていません

StereoVAE: A lightweight stereo-matching system using embedded GPUs

投稿日: 2025年6月11日作成者: jarxiv

要約組み込みGPUを介してステレオマッチング用の軽量システムを提示します。ス … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.MM, cs.RO | コメントを受け付けていません

Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation

投稿日: 2025年6月9日作成者: jarxiv

要約生成モデルを開発して、象徴的な音楽を作成または条件付けて作成することは、デ … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

SplArt: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting

投稿日: 2025年6月5日作成者: jarxiv

要約毎日の環境で一般的な明確なオブジェクトの再構築は、拡張/仮想現実とロボット … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM, cs.RO | コメントを受け付けていません

LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward

投稿日: 2025年6月5日作成者: jarxiv

要約視覚障害のある（VI）個人（NIG-VI）のナビゲーション命令生成は重要で … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

Sounding that Object: Interactive Object-Aware Image to Audio Generation

投稿日: 2025年6月5日作成者: jarxiv

要約複雑なオーディオビジュアルシーンに対して正確なサウンドを生成することは、特 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

VINCIE: Unlocking In-context Image Editing from Video

HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios

Teaching Physical Awareness to LLMs through Sounds

Teaching Physical Awareness to LLMs through Sounds

EVA: An Embodied World Model for Future Video Anticipation

StereoVAE: A lightweight stereo-matching system using embedded GPUs

Efficient Fine-Grained Guidance for Diffusion Model Based Symbolic Music Generation

SplArt: Articulation Estimation and Part-Level Reconstruction with 3D Gaussian Splatting

LaF-GRPO: In-Situ Navigation Instruction Generation for the Visually Impaired via GRPO with LLM-as-Follower Reward

Sounding that Object: Interactive Object-Aware Image to Audio Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー