cs.MM」カテゴリーアーカイブ

SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses

要約 ビデオ グラウンディングは、マルチモーダル コンテンツの理解における基本的 … 続きを読む

カテゴリー: cs.CV, cs.MM | SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses はコメントを受け付けていません

New Job, New Gender? Measuring the Social Bias in Image Generation Models

要約 画像生成モデルは、指定されたテキストから画像を生成または編集できます。 D … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM, cs.SE | New Job, New Gender? Measuring the Social Bias in Image Generation Models はコメントを受け付けていません

MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model

要約 LiDAR ベースの移動物体セグメンテーション (MOS) は、以前のスキ … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.RO, eess.IV | MambaMOS: LiDAR-based 3D Moving Object Segmentation with Motion-aware State Space Model はコメントを受け付けていません

A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning

要約 この論文は、マルチエージェントの議論をマルチモーダル推論に導入することを目 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.MA, cs.MM | A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning はコメントを受け付けていません

MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions

要約 大規模なマルチモダリティ データセットは、大規模なビデオ言語モデルの成功を … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions はコメントを受け付けていません

ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer

要約 特定のオーディオを使用してビデオをリップシンクすることは、仮想プレゼンター … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.MM | ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer はコメントを受け付けていません

COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark

要約 視覚と言語のコミュニティでは、手順に基づいたビデオの理解が注目を集めていま … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark はコメントを受け付けていません

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

要約 マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚言語の理解 … 続きを読む

カテゴリー: cs.CV, cs.MM | Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs はコメントを受け付けていません

MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models

要約 音声と言語を共同で処理するマルチモーダルモデルは、音声理解において大きな可 … 続きを読む

カテゴリー: cs.CL, cs.LG, cs.MM, cs.SD, eess.AS | MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models はコメントを受け付けていません

Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework

要約 一般化ゼロショット学習(GZSL)は、見たクラスと見たことのないクラスの両 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework はコメントを受け付けていません