cs.MM」カテゴリーアーカイブ

Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model

要約 Large Audio-Language Model (LALM) は、音 … 続きを読む

カテゴリー: cs.CL, cs.MM, cs.SD, eess.AS | Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model はコメントを受け付けていません

The Sound of Water: Inferring Physical Properties from Pouring Liquids

要約 私たちは、視聴覚観察と、液体を注ぐという平凡だが興味深い日常活動の基礎とな … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | The Sound of Water: Inferring Physical Properties from Pouring Liquids はコメントを受け付けていません

OneLLM: One Framework to Align All Modalities with Language

要約 マルチモーダル大規模言語モデル (MLLM) は、その強力なマルチモーダル … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | OneLLM: One Framework to Align All Modalities with Language はコメントを受け付けていません

Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer

要約 3D ビジュアライゼーション技術の進化により、デジタル コンテンツとのやり … 続きを読む

カテゴリー: cs.CV, cs.MM | Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer はコメントを受け付けていません

Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision

要約 デコードされたビットストリームは通常、人間またはマシンのニーズにのみ対応し … 続きを読む

カテゴリー: cs.CV, cs.MM | Unified Coding for Both Human Perception and Generalized Machine Analytics with CLIP Supervision はコメントを受け付けていません

Visual question answering: from early developments to recent advances — a survey

要約 Visual Question Answering (VQA) は、特徴抽 … 続きを読む

カテゴリー: cs.CV, cs.MM | Visual question answering: from early developments to recent advances — a survey はコメントを受け付けていません

Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue

要約 対話における皮肉の説明 (SED) は、新しいながらもやりがいのあるタスク … 続きを読む

カテゴリー: cs.CL, cs.MM | Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue はコメントを受け付けていません

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

要約 この論文では、マルチモーダルな理解と生成のための視覚・音声・言語オムニ知覚 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM, eess.AS | VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset はコメントを受け付けていません

VCEval: Rethinking What is a Good Educational Video and How to Automatically Evaluate It

要約 オンライン コースにより、教育へのアクセスの障壁は大幅に低くなりましたが、 … 続きを読む

カテゴリー: cs.CV, cs.MM | VCEval: Rethinking What is a Good Educational Video and How to Automatically Evaluate It はコメントを受け付けていません

Reviewing Intelligent Cinematography: AI research for camera-based video production

要約 この論文は、エンターテインメント目的での実際のカメラ コンテンツ取得のコン … 続きを読む

カテゴリー: cs.CV, cs.MM | Reviewing Intelligent Cinematography: AI research for camera-based video production はコメントを受け付けていません