cs.MM」カテゴリーアーカイブ

Quizzard@INOVA Challenge 2025 — Track A: Plug-and-Play Technique in Interleaved Multi-Image Model

要約 このペーパーでは、2つの主要な目的について説明します。 第一に、マルチイメ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | コメントする

PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications

要約 多様な環境とドメインでの堅牢なナビゲーションには、正確な状態推定と透明な意 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.RO | コメントする

PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications

要約 多様な環境とドメインでの堅牢なナビゲーションには、正確な状態推定と透明な意 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.RO | コメントする

A Unit Enhancement and Guidance Framework for Audio-Driven Avatar Video Generation

要約 オーディオ駆動型のヒューマンアニメーションテクノロジーは、ヒューマンコンピ … 続きを読む

カテゴリー: cs.CV, cs.MM | コメントする

VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos

要約 大規模なモデルのマルチステップ推論機能を評価するために作成された最初の長い … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | コメントする

Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment

要約 最近の研究では、マルチモーダルの大手言語モデル(MLLM)が解釈可能な評価 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.MM | コメントする

VINCIE: Unlocking In-context Image Editing from Video

要約 コンテキスト内画像編集は、テキストと以前に生成された画像を含むコンテキスト … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントする

HopaDIFF: Holistic-Partial Aware Fourier Conditioned Diffusion for Referring Human Action Segmentation in Multi-Person Scenarios

要約 アクションセグメンテーションは、高レベルのビデオ理解における中心的な課題で … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, cs.RO, eess.IV | コメントする

Teaching Physical Awareness to LLMs through Sounds

要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | コメントする

Teaching Physical Awareness to LLMs through Sounds

要約 大規模な言語モデル(LLM)は、テキストとマルチモーダル処理に顕著な能力を … 続きを読む

カテゴリー: cs.AI, cs.MM, cs.RO, cs.SD, eess.AS | コメントする