「cs.MM」カテゴリーアーカイブ

MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks

投稿日: 2023年10月16日作成者: jarxiv

要約マルチモーダル大規模言語モデル (MLLM) の人気により、これらのモデル … 続きを読む →

カテゴリー: cs.CL, cs.MM | コメントを受け付けていません

Multi-View Class Incremental Learning

投稿日: 2023年10月16日作成者: jarxiv

要約マルチビュー学習 (MVL) は、データセットの複数の視点からの情報を統合 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA

投稿日: 2023年10月16日作成者: jarxiv

要約テキストベースのビジュアル質問応答 (TextVQA) は、冗長な関係推論 … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

Soundify: Matching Sound Effects to Video

投稿日: 2023年10月16日作成者: jarxiv

要約ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Can We Edit Multimodal Large Language Models?

投稿日: 2023年10月16日作成者: jarxiv

要約このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の編集に焦 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Can We Edit Multimodal Large Language Models?

投稿日: 2023年10月13日作成者: jarxiv

要約このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の編集に焦 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Soundify: Matching Sound Effects to Video

投稿日: 2023年10月13日作成者: jarxiv

要約ビデオ編集の分野では、サウンドはオブジェクトに個性を加え、視聴者を空間に没 … 続きを読む →

カテゴリー: cs.CV, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

altiro3D: Scene representation from single image and novel view synthesis

投稿日: 2023年10月12日作成者: jarxiv

要約与えられたオリジナルの RGB 画像またはフラットビデオから現実を表現す … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.MM | コメントを受け付けていません

CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing

投稿日: 2023年10月12日作成者: jarxiv

要約オーディオビジュアルビデオの解析は、弱いラベルを使用してセグメントレベルで … 続きを読む →

カテゴリー: cs.CV, cs.MM, I.2.10, I.4.8 | コメントを受け付けていません

Layout Sequence Prediction From Noisy Mobile Modality

投稿日: 2023年10月11日作成者: jarxiv

要約軌道予測は、自動運転やロボット工学などの用途で歩行者の動きを理解する上で重 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, cs.RO | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks

Multi-View Class Incremental Learning

Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA

Soundify: Matching Sound Effects to Video

Can We Edit Multimodal Large Language Models?

Can We Edit Multimodal Large Language Models?

Soundify: Matching Sound Effects to Video

altiro3D: Scene representation from single image and novel view synthesis

CM-PIE: Cross-modal perception for interactive-enhanced audio-visual video parsing

Layout Sequence Prediction From Noisy Mobile Modality

最近の投稿

最近のコメント

アーカイブ

カテゴリー