「cs.MM」カテゴリーアーカイブ

LocoMotion: Learning Motion-Focused Video-Language Representations

投稿日: 2024年10月24日作成者: jarxiv

要約この論文は、動きに焦点を当てたビデオ言語表現を目指しています。ビデオ言語 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

投稿日: 2024年10月23日作成者: jarxiv

要約言語モデルは、画像、ビデオ、音声、オーディオなどの自然信号のモデル化に効果 … 続きを読む →

カテゴリー: cs.LG, cs.MM, cs.SD, eess.AS, eess.SP | コメントを受け付けていません

AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results

投稿日: 2024年10月23日作成者: jarxiv

要約ビデオ品質評価 (VQA) は、視聴者のエクスペリエンスに直接影響を与える … 続きを読む →

カテゴリー: cs.CV, cs.MM, eess.IV | コメントを受け付けていません

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

投稿日: 2024年10月22日作成者: jarxiv

要約 Explainable AI for the Arts (XAIxArts … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.MM, cs.SD, eess.AS | コメントを受け付けていません

Movie101v2: Improved Movie Narration Benchmark

投稿日: 2024年10月21日作成者: jarxiv

要約自動映画ナレーションは、視覚障害のある視聴者を支援するために、ビデオに合わ … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Parallel Backpropagation for Inverse of a Convolution with Application to Normalizing Flows

投稿日: 2024年10月21日作成者: jarxiv

要約可逆畳み込みの逆は、フローの正規化や画像のブレ除去などで登場する重要な操作 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, math.PR | コメントを受け付けていません

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

投稿日: 2024年10月21日作成者: jarxiv

要約 AI モデルが現実世界の信号から効果的に学習し、それに関与するには、多様な … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.MM | コメントを受け付けていません

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

投稿日: 2024年10月18日作成者: jarxiv

要約 AI モデルが現実世界の信号から効果的に学習し、それに関与するには、多様な … 続きを読む →

カテゴリー: cs.AI, cs.LG, cs.MM | コメントを受け付けていません

Beyond Coarse-Grained Matching in Video-Text Retrieval

投稿日: 2024年10月18日作成者: jarxiv

要約ビデオテキストの検索は大幅に進歩しましたが、キャプションの微妙な違いを識別 … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.MM | コメントを受け付けていません

Improving Multi-modal Large Language Model through Boosting Vision Capabilities

投稿日: 2024年10月18日作成者: jarxiv

要約私たちは、視覚言語モデルを強化するための視覚理解能力の向上に焦点を当ててい … 続きを読む →

カテゴリー: cs.CV, cs.MM | コメントを受け付けていません

「cs.MM」カテゴリーアーカイブ

LocoMotion: Learning Motion-Focused Video-Language Representations

WavTokenizer: an Efficient Acoustic Discrete Codec Tokenizer for Audio Language Modeling

AIM 2024 Challenge on Compressed Video Quality Assessment: Methods and Results

Proceedings of The second international workshop on eXplainable AI for the Arts (XAIxArts)

Movie101v2: Improved Movie Narration Benchmark

Parallel Backpropagation for Inverse of a Convolution with Application to Normalizing Flows

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

MixEval-X: Any-to-Any Evaluations from Real-World Data Mixtures

Beyond Coarse-Grained Matching in Video-Text Retrieval

Improving Multi-modal Large Language Model through Boosting Vision Capabilities

最近の投稿

最近のコメント

アーカイブ

カテゴリー